Python糗百爬虫

# -*- coding:utf-8 -*-
import urllib2
import urllib
import re
url='https://www.qiushibaike.com/8hr/page/1/'

headers={
'User-Agent' : 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'
}
try:
    request=urllib2.Request(url,headers=headers)
    response=urllib2.urlopen(request)
    content=response.read().decode('utf-8')
    pattern=re.compile('<div class="author.*?<h2>(.*?)</h2>.*?'+'<div class="content">.*?<span>(.*?)</span>.*?'+'<i class="number.*?>(.*?)</i>(.*?)</span>.*?',re.S)
    items=re.findall(pattern,content)
    for item in items:
        print item[0],item[1],item[2],item[3]
except urllib2.URLError,e:
    if hasattr(e,"code"):
        print e.code
    if hasattr(e,"reason"):
        print e.reason
爬取结果:

没有更多推荐了,返回首页

私密
私密原因:
请选择设置私密原因
  • 广告
  • 抄袭
  • 版权
  • 政治
  • 色情
  • 无意义
  • 其他
其他原因:
120
出错啦
系统繁忙,请稍后再试

关闭