Python---爬取糗事百科的数据

爬取糗事百科的数据

def getData(url):
    try:
        req = urllib.request.Request(url)
        req.add_header("User-Agent", "Moz+illa/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.87 Safari/537.36")
        data = urllib.request.urlopen(req).read().decode('utf-8')
        # 过滤用户头像、用户名称
        pattrn1 = '<img src="//(.*?)" alt="(.*?)">'
        result1 = re.compile(pattrn1).findall(data)
        # 过滤性别、年龄
        pattrn2 = '<div class="articleGender (.*?)">(\d+)</div>'
        result2 = re.compile(pattrn2).findall(data)
        print(result1)
        print(result2)
    except urllib.error.URLError as e:
        if hasattr(e, "code"):
            print(e.code)
        if hasattr(e, "reason"):
            print(e.reason)


for i in range(1, 2):
    url = "https://www.qiushibaike.com/8hr/page/"+str(i)
    getData(url)

 

转载于:https://my.oschina.net/quguangle/blog/1840499

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值