学习笔记--我的第一个爬虫项目

最新推荐文章于 2024-07-26 22:40:18 发布

DoCki

最新推荐文章于 2024-07-26 22:40:18 发布

阅读量782

点赞数 1

文章标签： Python 爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Love_ProgramingKi/article/details/53065577

版权

博主通过2周的学习，完成了首个Python爬虫项目，该项目能爬取百度百科的词条页面。项目采用Python的urllib2和BeautifulSoup库，实现URL管理、网页下载和解析。代码分为URL管理器、网页下载器、网页分析器三个部分，详细展示了爬虫的运作流程。

摘要由CSDN通过智能技术生成

我花了2周的时间，从对Python相关知识一无所知，到成功写出第一个爬虫项目。Python语言真的很简单，不到两百行的代码写出了一个能够爬取百度百科相关词条的有关页面（页面的数量由你定）。我是在网站上学习的，因为有厉害的大神会分享源码以及教你怎么做。我是有C/C++基础的，学Python完全是因为看知乎上有一个很热门的话题“用Python爬虫可以做哪些很酷很有趣的事情？”。看了很多答主的回答，便对Python有了浓厚的兴趣。就像当年Ken Thompson做的第一个Unix核心一样，他当时也仅仅是为了移植一套《太空旅游》的游戏到他电脑上而已。。

Python爬虫是一段自动抓取互联网信息的程序。以下是爬虫的简介与他的架构以及运行架构和价值。（图片来自慕课网）

爬虫主体分为三大部分，URL管理器，网页下载器以及网页分析器。在网页下载器上，我用的是urllib2模块，因为它是Python官方基础模块，我觉得刚学Python的话用这个就行了。网页解析器我用的是BS4。图片便于记忆，以下是贴图。

最低0.47元/天解锁文章

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。