python爬取百度贴吧图片只能爬取置顶帖_交流帖，爬取前两页的图片，不能爬取指定页面...

weixin_39632728

于 2020-12-09 10:22:27 发布

阅读量119

点赞数

文章标签： python爬取百度贴吧图片只能爬取置顶帖

该楼层疑似违规已被系统折叠隐藏此楼查看此楼

代码如下，每次输入其他页面的范围就不可以爬取,只能爬取第一页的图片，希望有经验的老师可以指点一二，谢谢

#encoding=utf-8

import requests

from bs4 import BeautifulSoup

import threading

from lxml import etree

#获取网页html原码

def get_html(url):

headers={'User-Agent':'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.101 Safari/537.36'}

resquest=requests.get(url=url,headers=headers)

response=resquest.content

return response

def img_get_html(html):

soup=BeautifulSoup(html,'lxml')

all_a=soup.find_all('a',class_='list-group-item')

for one_a in all_a:

img_html=get_html(one_a['href'])

img_get_url(img_html)

def img_get_url(html):

soup=etree.HTML(html)#初始化html文件

items=soup.xpath('//div[@class="artile_des"]')

for item in items:

img_url_list=item.xpath('table/tbody/tr/td/a/img/@src')

img_save(img_url_list)

# start_save_img(img_url)

x=1

def img_save(img_url_list):

global x

for img_url in img_url_list

print '正在下载'+img_url

img_content=requests.get(img_url).content

with open('../斗图/'+str(x)+img_url[-4:],'wb') as f:

x += 1

f.write(img_content)

#def start_save_img(img_url):

# th=threading.Thread(target=img_save,args=(img_url,))

# th.start()

def main():

start_pn=int(raw_input("请输入开始页码："))

end_pn=int(raw_input("请输入结束页码:"))

for pn in range(start_pn,end_pn+1):

start_url = "http://www.doutula.com/article/list/?page="

start_url=get_html(start_url.format(str(pn)))

img_get_html(start_url)

if __name__ == '__main__':

main()

weixin_39632728

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。