爬虫（爬取图片存入本地、贴吧名转化url地址

最新推荐文章于 2021-02-24 17:03:13 发布

南桥经不起秋

最新推荐文章于 2021-02-24 17:03:13 发布

阅读量387

点赞数

分类专栏：爬虫

本文链接：https://blog.csdn.net/dianxinlaozong/article/details/108718596

版权

爬虫专栏收录该内容

6 篇文章 0 订阅

订阅专栏

爬取图片存入本地

# coding=utf-8              #防止编码错误，爬虫开头必写
import requests
import re


url='https://tieba.baidu.com/f?fr=wwwt&kw=%E5%8A%A8%E6%BC%AB%E5%A4%B4%E5%83%8F%E5%90%A7'
headers={
头

}
response=requests.get(url=url,headers=headers)
# print(response.text)  #显示整个html页面的源码
shou_str=response.text   #被查找源
bse_str= '''<a rel="noreferrer"  class=".*"><img src="" attr="\d*" data-original=".*"  bpic="(.*)" class=".* "  /></a><div class=".*"></div></li></ul>
        '''                      #查找规则
ret= re.findall(bse_str,shou_str)   #全局查找（查找规则[正则表达式]，被查找源[整个html页面]）
#规则，被查找体
# print(ret)   #显示符合的图片链接

#todo 存图片到本地
for item in ret:
    bstr=requests.get(item,headers=headers).content  #转化成字符串
    with open(item[-18:],'wb+') as f:
        f.write(bstr)
        f.close()

贴吧名转化url地址

import requests
import re

# url1="https://tieba.baidu.com/f?kw=%E7%BE%8E%E9%A3%9F"  #美食吧
# url2='https://tieba.baidu.com/f?kw=%E7%BE%8E%E5%A5%B3'  #美女吧  #找规律
base_url='https://tieba.baidu.com/f?'     #共同部分的url
headers={
头
}

kw=input("请输入需要抓取的贴吧名")

response = requests.get(url=base_url,headers=headers,params={'kw':kw})
print(response.url)
# 根据吧名抓取百度贴吧url