本学期开始接触python,python是一种面向对象的、解释型的、通用的、开源的脚本编程语言,我觉得python最大的优点就是简单易用,学习起来比较上手,对代码格式的要求没有那么严格,这种风格使得我在编写代码时比较舒适。爬虫作为python的最为吸引我兴趣的一个方面,在学习之后可以帮助我们方便地获取更多的数据源,从而进行更深层次更有效的数据分析,获得更多的价值。
Python爬虫入门学习实践——爬取小说
首先我们肯定是对小说网站进行观察,辨别小说网站是静态还是动态的,此次爬取的目标是笔趣阁网站https://www.xsbiquge.com(这里发现网址与上次爬取时的网址有所变化),任一点开一本小说的任一章节通过F12的Elements选项可以检查到文章内容存在于 div id=‘content’ 标签中,所以说爬取的目标是静态的。当然,有人会问,使用动态的Selenium可以爬取吗?答案是肯定的,当然网站是静态的我们就没有必要舍近求远的使用动态方法求得结果。
Python爬虫入门学习实践——爬取小说
然后选取目标小说之后,点击小说目录页面,通过F12的Elements选项可以观察到小说所有章节的url都是有规则的。
Python爬虫入门学习实践——爬取小说
爬取到所有章节的url之后保存,对获取的章节url进行完善之后再进入每一章节对标题和正文内容进行爬取,最后保存到txt文件当中。
理清我们的思路之后,按照步骤一步一步完成功能。1.使用request请求库和数据清洗匹配的re库
re模块是python独有的匹配字符串的模块,该模块中提供的很多功能是基于正则表达式实现的,而正则表达式是对字符串进行模糊匹配,提取自己需要的字符串部分,他对所有的语言都通用。注意:(1)re模块是python独有的;(2)正则表达式所有编程语言都可以使用;(3)re模块、正则表达式是对字符串进行操作。
2.对目标网站发送url请求
3.对网站目录页查找所有章节的url
4.对获取所有章节的url进行完善方便再次访问
5.对获取的每一张url进行访问寻找标题和正文内容
6.对获取的正文内容进行清洗
7.将数据保存到预先设定的txt中
Python爬虫入门学习实践——爬取小说
Python爬虫入门学习实践——爬取小说
- 关于 re 使用,参考 这儿。
通过对该项目的锻炼,设计并实现系统整体的功能模块,使我受益颇深,尤其是在数据挖掘和数据分析方面有了更加深入的认识,同时也提升了自我学习的能力,为日后的学习和工作奠定了基础。程序代码实现了爬取小说的功能,对数据进行了清洗。但这只是对一本小说进行爬取,如果想对全站小说进行爬取,可以在功能模块上再添加一个大的循环获取网站所有小说的url就可以实现了。这是我的想法以及实现,如果你有其他的思路,可以评论交流一下,大家互相学习进步。
文章转载自CSDN,原作者知鱼栏