python写网络爬虫：爬取糗事百科上的段子

最新推荐文章于 2024-09-21 17:56:48 发布

ithewei

最新推荐文章于 2024-09-21 17:56:48 发布

阅读量814

点赞数 1

分类专栏：人生苦短,我用python 文章标签： python 网络爬虫

本文链接：https://blog.csdn.net/GG_SiMiDa/article/details/61921479

版权

人生苦短,我用python 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

# -*- coding:utf-8 -*-

from urllib import request
import re

url = 'http://www.qiushibaike.com/hot/'
headers = {'User-Agent':'Mozilla/5.0(Windows NT 6.1); WOW64'}
req = request.Request(url, headers = headers)
with request.urlopen(req) as f:
  print('Status:', f.status, f.reason)
  for k,v in f.getheaders():
    print('%s: %s' % (k, v))
  data = f.read().decode('utf-8')
  pattern = re.compile('<div class="content">.*?<span>(.*?)</span>', re.S)
  items = re.findall(pattern, data)
  for index,item in enumerate(items):
    br = re.compile('<br>|<br/>')
    item = re.sub(br, '\n', item)
    print('%d:\n%s\n' % (index, item))