[数据挖掘]糗事百科爬取

import urllib.request
import re


#定义一个函数处理url
def handle_url(url,page):
    url = url + str(page)
    headers = {“User-Agent”:“Mozilla / 5.0(Windows NT 10.0; WOW64)AppleWebKit / 537.36(KHTML,像Gecko)Chrome / 65.0.3325.181 Safari / 537.36“}
    req = urllib.request.Request(url = url,headers = headers)
    return req
#定义一个函数用于处理
每个页面def handle_pages(req) :
    res = urllib.request.urlopen(req)
    html = res.read()。decode('utf8')
    #匹配图片所在的div
    pat = re.compile(r'<div class =“thumb”>。*? <img src =“(。*?)”alt =。*?>。*?</ div>',re.S)
    src = pat。findall(html)         #print
    (src)
    num = 1
    for src:
#拼接上“http:”
        url =“http:”+ url
        urllib.request.urlretrieve(url,“./ images /”+ str(num)+“。jpg”)
        num + = 1




def main():
    url =“https:// www .qiushibaike.com / PIC /页/”
    START_PAGE =输入( “请输入起始页:”)
    end_page =输入( “请输入结束页:”)
    打印( “开始下载”)
    在范围页(INT(START_PAGE ),int(end_page)+1):
        #print(handle_url(url,page))
        handle_pages(handle_url(url,page))


    print(“下载完毕!”)


if __name__ ==“__main__”:
    main()





  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值