爬虫(爬取图片存入本地、贴吧名转化url地址

爬取图片存入本地

# coding=utf-8              #防止编码错误,爬虫开头必写
import requests
import re


url='https://tieba.baidu.com/f?fr=wwwt&kw=%E5%8A%A8%E6%BC%AB%E5%A4%B4%E5%83%8F%E5%90%A7'
headers={}
response=requests.get(url=url,headers=headers)
# print(response.text)  #显示整个html页面的源码
shou_str=response.text   #被查找源
bse_str= '''<a rel="noreferrer"  class=".*"><img src="" attr="\d*" data-original=".*"  bpic="(.*)" class=".* "  /></a><div class=".*"></div></li></ul>
        '''                      #查找规则
ret= re.findall(bse_str,shou_str)   #全局查找(查找规则[正则表达式],被查找源[整个html页面])
#规则,被查找体
# print(ret)   #显示符合的图片链接

#todo 存图片到本地
for item in ret:
    bstr=requests.get(item,headers=headers).content  #转化成字符串
    with open(item[-18:],'wb+') as f:
        f.write(bstr)
        f.close()

贴吧名转化url地址

import requests
import re

# url1="https://tieba.baidu.com/f?kw=%E7%BE%8E%E9%A3%9F"  #美食吧
# url2='https://tieba.baidu.com/f?kw=%E7%BE%8E%E5%A5%B3'  #美女吧  #找规律
base_url='https://tieba.baidu.com/f?'     #共同部分的url
headers={}

kw=input("请输入需要抓取的贴吧名")

response = requests.get(url=base_url,headers=headers,params={'kw':kw})
print(response.url)
# 根据吧名抓取百度贴吧url
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

南桥经不起秋

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值