利用python的爬虫技术爬去糗事百科的段子

实现目标:

1,爬取到糗事百科的段子

2,实现每次爬去一个段子,每按一次回车爬取到下一页

技术实现:

基于python的实现,利用Requests库,re库,bs4库的BeautifulSoup方法来实现的

主要内容:首先我们要理清一下爬取实现的思路,我们来构建一下主体框架。第一步我们先写一个利用Requests库来获取网页的方法,第二步我们利用bs4库的BeautifulSoup方法来分析所获取的网页信息并利用正则表达式来匹配相关的段子信息。第三步我们来打印出获得的信息。以上方法我们都通过一个主函数来进行执行。

一,首先导入相关的库

二,首先进行网页信息的获取

三,把信息放到r后再进行解析  

soup = BeautifulSoup(html,"html.parser")

我们需要的是段子的内容和发布人,通过网页的查看源代码我们知道段子的发布人在:

'div', attrs={'class': 'content'}中

段子的内容在

'div', attrs={'class': 'author clearfix'}中

所以我们通过bs4库的方法来提取这两个标签的具体内容

然后通过具体到正则表达式来获取信息

完整代码

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值