糗事百科爬虫

import urllib.request
import ssl
import re

def jokeCrewler(url):
    headers={
        "User-Agent":"Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; 360SE)"
    }
    req=urllib.request.Request(url,headers=headers)

    context =ssl._create_unverified_context()
    response=urllib.request.urlopen(req,context=context)

    HTML= response.read().decode("utf-8")

    pat=r'<div class="author clearfix">(.*?)<span class="stats-vote"><i class="number">'
    re_joke=re.compile(pat,re.S)


    divlist=re_joke.findall(HTML)

    dic={}
    for div in divlist:
        

        re_u=re.compile(r"<h2>(.*?)</h2>",re.S)
        username=re_u.findall(div)
        username=username[0]

        re_d=re.compile(r'<div class="content">\n<span>(.*?)</span>',re.S)
        duanzi = re_d.findall(div)
        duanzi = duanzi[0]
        dic[username]=duanzi
    return dic
    # with open(r"……,'w') as f:
    #     f.write(HTML)

url="https://www.qiushibaike.com/8hr/page/3/"
info=jokeCrewler(url)
for k,v in info.items():
    print(k,v)

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值