python爬取糗事百科

最新推荐文章于 2020-10-21 14:10:52 发布

luoyu_bie

最新推荐文章于 2020-10-21 14:10:52 发布

阅读量588

点赞数

文章标签： python 爬虫

python爬虫专栏收录该内容

8 篇文章 0 订阅

订阅专栏

转载：静觅 »Python爬虫实战一之爬取糗事百科段子

#!/usr/bin/env python
# _*_coding:utf-8 _*_
# @Time     :2017/8/21 23:32
# @Author   :luoyu_bie
# @File     :QsBaike.py
# @Software :PyCharm Community Edition
import urllib2
import re

page = 1
url = "http://www.qiushibaike.com/hot/page/"+str(page)
agent = "Mozilla/5.0 (Windows NT 6.3; WOW64; rv:54.0) Gecko/20100101 Firefox/54.0"
headers = {"User-Agent":agent}
req = urllib2.Request(url,headers=headers)
response = urllib2.urlopen(req)
html = response.read()
#编译正则表达式
pattern = re.compile('<div class="author clearfix">.*?<h2>(.*?)</h2>.*?<div class="content">.*?<span>(.*?)</span>.*?<div class="stats">.*?<i class="number">(\d)</i>',re.S)
items = re.findall(pattern,html)
for item in items:
    print "发布者："+item[0].strip()+"\n","段子："+"\n"+item[1].strip().replace("<br/>","\n")+"\n"+"点赞数："+item[2]+"\n"+"*"*10

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

luoyu_bie CSDN认证博客专家 CSDN认证企业博客

码龄8年

29: 原创

111万+: 周排名

117万+: 总排名

7万+: 访问

: 等级

924: 积分

37: 粉丝

32: 获赞

6: 评论

130: 收藏

私信

关注

热门文章

分类专栏

最新评论

Doxygen的内部支持的markdown语法
CSDN-Ada助手: 非常感谢博主的分享，这篇博客介绍了Doxygen内部支持的markdown语法，对于使用Doxygen进行代码文档化的开发者来说，非常实用。我觉得下一篇可以继续深入介绍如何使用Doxygen生成API文档，并结合实际项目案例进行讲解，相信会对其他开发者有所帮助。期待更多优质技术文章的分享！为了方便博主创作，提高生产力，CSDN上线了AI写作助手功能，就在创作编辑器右侧哦～（https://mp.csdn.net/edit?utm_source=blog_comment_recall ）诚邀您来加入测评，到此（https://activity.csdn.net/creatActivity?id=10450&utm_source=blog_comment_recall）发布测评文章即可获得「话题勋章」，同时还有机会拿定制奖牌。
连接Mongodb显示“由于计算机积极拒绝，无法连接”
呵呵，不解释868: 不行，还是连接不到。而且后台没有显示有mongoDB
python基础练习题
选择跳水或自由落体回复 weixin_44784266: 冲鸭
python基础练习题
weixin_44784266: 第一个不行啊，输出错误
python基础练习题
towrabbit: 好厉害

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。