python使用requests_html进行爬虫的小案例

最近公司开展了一次爬虫小作业,对于我这个初学者,连爬虫都没接触过,实在是惭愧,幸亏参考了一下同事的作业
查看过后,恍然大悟,突然发现,原来爬虫,入门也不是太难。

万事开头难,对于任何程序员而言,思路,是最重要的东西
首先,需要理清自己的思路,思路清晰:
1.对于这次案例是爬取糗事百科的笑话
2.在页面中,爬取作者以及对应的内容保存到json文件中即可

下面正式开始:
1.解析每一页的html内容
2.从内容中提取出作者与内容
3.将内容保存到json文件
就是这么简单。

下面开始正式实践:
1.因为糗事百科的笑话页面中,有13页,也就是说有13个url,我们需要分别对13个url发送请求解析html
  因此,封装一个函数为拼接url集合的函数


2.拼接完成url后,我们需要封装一个解析html的函数

 

3.有了以上两个步骤,我们以及得到了url集合以及访问url的函数,因此,我们可以编写一个获取所有笑话的集合函数

 

4.获取到了所有内容的集合函数,最后我们需要把它load到本地文件

 

最后附上main运行的函数

 

 

最重要的不是编码,而是分析,代码,只是一个工具,我们强调的是思路。

接到一个需求后,先分析,再把这个需求拆分成其他功能点,将功能点使用代码实现后,再把功能点配合起来。完成最后的任务。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值