提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档
前言
`网络爬虫也称为“蜘蛛”,它可以在海量的互联网信息爬取需要的信息。简单地说它是模拟人类请求网站的行为,即自动请求网页、抓取数据,然后从中提取有价值的数据 。具体步骤如下,首先发送请求获取目标网页,通过分析页面获得网页的源代码。其次,解析页面从网页源代码中提取出本研究所需的数据。该操作为数据的处理以及分析提供便利,因此需要给予高度重视。最后,以适当的格式保存抽取的部分数据。通常以 TXT文本、CSV或JSON等格式将数据保存在文本中。
一、python爬虫心得
学习python爬虫之前,在学校安排的《数据仓库与数据挖掘》课程中,学习了一线python的基础知识。之后我便在慕课和b站中自学了python爬虫的一些知识,对python爬虫有一定的知识储备。在本课程开课,跟着老师学习真正的python爬虫之后,才算是真正入门python爬虫,也才知道网上免费的课程其实只是教一些皮毛的东西,学校的老师教给我们的才是更深入更全面的知识,通过老师传授的知识,然后自己去爬取到的数据有一种莫名的震撼和成就感,终于感受到了python爬虫的有趣和魅力。
刚开始上老师的课时,感觉和学校里面老师的讲课方式不一样,学校里面的老师大多数偏向于讲一些书本上的理论知识,很少关心能否真正实践于生活。但老师的讲课方式恰恰相反,相对于其他老师更侧重于学习该课之后能否服务于将来的实际生活,能否在将来的工作和生活中起作用。
老师在讲课过程中,通过讲课内容然后教我们安装了一些python爬虫需要用到的软件,比如Anaconda、Pycharm、Mysql、Mongodb等,有了这些工具我们可以更好的进行爬虫学习。
学习一学期老师的课程之后,关于python爬虫我的一些总结,大概学习步骤为:
(1) 安装requests库和BeautifulSoup库;
(2) 获取爬虫所需的header和cookie
(3) 获取网页
(4) 解析网页
(5) 分析得到的信息,简化地址
(6) 爬取内容,清洗数据
(7) 将相应数据库连接进行数据存储
以上,有不足的地方,python这个语言需要一个不断学习的过程,python功能很多,爬虫只是其中一个功能,深入学习python我相信肯定还会有更大的收获,但目前肯定还是把python学透学精,所以结束该课程之后也还要继续学习python爬虫,多多实践,遇到问题首先学会自己去尝试解决,解决不了再去请教专业人士。这样子才会学到更多知识,才能再将来的工作中才会帮助到我们。
二、Pip模块
(1) Requests
requests是一个很实用的Python HTTP客户端库,爬虫和测试服