[数据挖掘]糗事百科爬取

最新推荐文章于 2024-10-03 16:52:07 发布

不羁骚年

最新推荐文章于 2024-10-03 16:52:07 发布

阅读量154

点赞数 1

分类专栏： python 文章标签：爬虫

本文链接：https://blog.csdn.net/weixin_41903241/article/details/80627282

版权

python 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

import urllib.request
import re

＃定义一个函数处理url
def handle_url（url，page）：
url = url + str（page）
headers = {“User-Agent”：“Mozilla / 5.0（Windows NT 10.0; WOW64）AppleWebKit / 537.36（KHTML，像Gecko）Chrome / 65.0.3325.181 Safari / 537.36“}
req = urllib.request.Request（url = url，headers = headers）
return req
＃定义一个函数用于处理
每个页面def handle_pages（req）：
res = urllib.request.urlopen（req）
html = res.read（）。decode（'utf8'）
＃匹配图片所在的div
pat = re.compile（r'<div class =“thumb”>。*？ <img src =“（。*？）”alt =。*？>。*？</ div>'，re.S）
src = pat。findall（html）＃print
（src）
num = 1
for src：
＃拼接上“http：”
url =“http：”+ url
urllib.request.urlretrieve（url，“./ images /”+ str（num）+“。jpg”）
num + = 1

def main（）：
url =“https：// www .qiushibaike.com / PIC /页/”
START_PAGE =输入（ “请输入起始页：”）
end_page =输入（ “请输入结束页：”）
打印（ “开始下载”）
在范围页（INT（START_PAGE ），int（end_page）+1）：
＃print（handle_url（url，page））
handle_pages（handle_url（url，page））

print（“下载完毕！”）

if __name__ ==“__main__”：
main（）