python网络爬虫__刘世民

最新推荐文章于 2024-05-20 22:54:06 发布

VIP文章小白——刘世民

最新推荐文章于 2024-05-20 22:54:06 发布

阅读量256

点赞数

文章标签： python

本文链接：https://blog.csdn.net/qq_55091219/article/details/123624738

版权

from urllib import request
import re
#定义url
page=100
url='https://tieba.baidu.com/f?kw=%B6%CE%D7%D3&fr=ala0&tpl=5&dyTabStr=MCw2LDIsNCw1LDMsMSw4LDcsOQ%3D%3D'+str(page)
#

try:
headers={'User-Agent':' Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.74 Safari/537.36'}
#定义请求。转入请求头
req=request.Request(url,headers=headers)
#打开网页
resp=request.urlopen(req)
#打印响应码
# print(resp.read().decode('utf-8'))
content=resp.read().decode('utf-8')
print(content)
#写正则表达式
#<a rel="noopener"> 具体的东西直接写出
#.*?匹配没用的数据
#(.*?) 匹配有用的数据分组
#\s 空格
pattern=re.compile('<a rel="noopener".*?title=(.*?)\s.*?>(.*?)</a>')
#pat

最低0.47元/天解锁文章

小白——刘世民

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python网络爬虫__刘世民

from urllib import requestimport re#定义urlpage=100url='https://tieba.baidu.com/f?kw=%B6%CE%D7%D3&fr=ala0&tpl=5&dyTabStr=MCw2LDIsNCw1LDMsMSw4LDcsOQ%3D%3D'+str(page)#try: headers={'User-Agent':' Mozilla/5.0 (Windows NT 6.1; Win64; x64)...
复制链接

扫一扫