python 3.5 爬虫日记2

最新推荐文章于 2020-05-09 23:41:29 发布

sinat_31387105

最新推荐文章于 2020-05-09 23:41:29 发布

阅读量371

点赞数

from urllib import request

#输入正则表达式模块

import re

page=1
url='http://www.qiushibaike.com/8hr/page/1'
r=request.Request(url)

r.add_header('User-Agent','ABC')

#读取首页原码并命名为content

content=request.urlopen(r).read().decode('utf-8')

#用compile方法预编译，即制定匹配规则：re.compile函数有两个参数（pattern，flag=0），若flag参数为re.S，则正则表达式中的“.”也可以表示一行(默认“.”表示除行以外的任何字符。主要使用.*?和(.*?)两个组合，.*? 是一个固定的搭配，.和*代表可以匹配任意无限多个字符，加上？表示使用非贪婪模式进行匹配，也就是我们会尽可能短地做匹配，以后我们还会大量用到 .*? 的搭配。(.*?)代表一个分组，在这个正则表达式中我们匹配了五个分组，在后面的遍历item中，item[0]就代表第一个(.*?)所指代的内容，item[1]就代表第二个(.*?)所指代的内容，以此类推。{此处引用http://cuiqingcai.com/990.html}

pattern=re.compile('<div class.*?author.*?title="(.*?)".*?"content">.(.*?)<!.*?'+
'stats.*?number">(.*?)</i.*?number">(.*?)</i.*?</div>',re.S)

#findall函数在给定字符串中查找所有符合上述正则规则的表达式。

items=re.findall(pattern,content)

for item in items:
print('作者 '+item[0]+'\n',item[1]+'\n','喜欢数 '+item[2],'评论数 '+item[3]+'\n'*2)

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
python 3.5 爬虫日记2

from urllib import request#输入正则表达式模块import repage=1url='http://www.qiushibaike.com/8hr/page/1'r=request.Request(url)r.add_header('User-Agent','ABC')#读取首页原码并命名为contentcontent=request.ur
复制链接

扫一扫

sinat_31387105 CSDN认证博客专家 CSDN认证企业博客

码龄9年

3: 原创

182万+: 周排名

152万+: 总排名

2198: 访问

: 等级

61: 积分

0: 粉丝

0: 获赞

0: 评论

1: 收藏

私信

关注

热门文章

分类专栏

python学习 1篇

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。