普通爬虫(糗事百科)

最新推荐文章于 2023-04-17 11:15:54 发布

wangxihe2012

最新推荐文章于 2023-04-17 11:15:54 发布

阅读量166

点赞数

分类专栏： Python

本文链接：https://blog.csdn.net/wangxihe2012/article/details/80528941

版权

Python 专栏收录该内容

30 篇文章 0 订阅

订阅专栏

import urllib.request
import urllib.error
import re
headers = ("User-Agent","Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36")
opener = urllib.request.build_opener()
opener.addheaders = [headers]
urllib.request.install_opener(opener)
for i in range(1,2):
 url = "https://www.qiushibaike.com/8hr/page/"+str(i)+"/"
 pagedata = urllib.request.urlopen(url).read().decode("utf-8","ignore")
 pattern = '<div class="content">.*?<span>(.*?)</span>(.*?)</div>'
 datalist = re.compile(pattern,re.S).findall(pagedata)
 for j in range(0,len(datalist)):
  print("第"+str(i)+"页第"+str(j)+"个段子内容是：")
  print(datalist[j])

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

wangxihe2012

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
普通爬虫(糗事百科)

import urllib.requestimport urllib.errorimport reheaders = ("User-Agent","Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36")opener = url...
复制链接

扫一扫