python3编写知乎某话题爬虫应注意事项

最新推荐文章于 2023-12-13 14:43:49 发布

Navigitor

最新推荐文章于 2023-12-13 14:43:49 发布

阅读量400

点赞数

分类专栏： python3爬虫

本文链接：https://blog.csdn.net/weixin_36925980/article/details/82924681

版权

python3爬虫专栏收录该内容

2 篇文章 0 订阅

订阅专栏

1.请求头
在浏览器元素栏中寻找，一般保留HOST和User-Agent两项即可
2.文件的保存

#保存文件夹的准备
def save(text,filename='temp',path='/home/wanghuan/spider-learning/zhihu/download'):
#生成保存数据地址
     fpath=os.path.join(path,filename)
     #生成下载图片的地址
     with open(fpath,'wb+') as f:
          print('output:',fpath)
          f.write(text)

3.图片的保存

def save_image(image_url):
#从浏览器中获取图片的网络地址
     resp=requests.get(image_url)
     page=resp.content
     #截取图片的文件名（取后缀为zhimg.com）
     filename = image_url.split('zhimg.com/')[-1]
     save(page,filename)