最近公司开展了一次爬虫小作业,对于我这个初学者,连爬虫都没接触过,实在是惭愧,幸亏参考了一下同事的作业
查看过后,恍然大悟,突然发现,原来爬虫,入门也不是太难。
万事开头难,对于任何程序员而言,思路,是最重要的东西
首先,需要理清自己的思路,思路清晰:
1.对于这次案例是爬取糗事百科的笑话
2.在页面中,爬取作者以及对应的内容保存到json文件中即可
下面正式开始:
1.解析每一页的html内容
2.从内容中提取出作者与内容
3.将内容保存到json文件
就是这么简单。
下面开始正式实践:
1.因为糗事百科的笑话页面中,有13页,也就是说有13个url,我们需要分别对13个url发送请求解析html
因此,封装一个函数为拼接url集合的函数
2.拼接完成url后,我们需要封装一个解析html的函数
3.有了以上两个步骤,我们以及得到了url集合以及访问url的函数,因此,我们可以编写一个获取所有笑话的集合函数
4.获取到了所有内容的集合函数,最后我们需要把它load到本地文件
最后附上main运行的函数
最重要的不是编码,而是分析,代码,只是一个工具,我们强调的是思路。
接到一个需求后,先分析,再把这个需求拆分成其他功能点,将功能点使用代码实现后,再把功能点配合起来。完成最后的任务。