python3编写知乎某话题爬虫应注意事项

1.请求头
在浏览器元素栏中寻找,一般保留HOST和User-Agent两项即可
2.文件的保存

#保存文件夹的准备
def save(text,filename='temp',path='/home/wanghuan/spider-learning/zhihu/download'):
#生成保存数据地址
     fpath=os.path.join(path,filename)
     #生成下载图片的地址
     with open(fpath,'wb+') as f:
          print('output:',fpath)
          f.write(text)

3.图片的保存

def save_image(image_url):
#从浏览器中获取图片的网络地址
     resp=requests.get(image_url)
     page=resp.content
     #截取图片的文件名(取后缀为zhimg.com)
     filename = image_url.split('zhimg.com/')[-1]
     save(page,filename)
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值