爬虫实例2:手动设置cookie 爬取知乎50条热搜利用base64库将每一条热搜新闻上的图片内容编码成base64编码

最新推荐文章于 2022-11-21 23:32:30 发布

南巷的花猫

最新推荐文章于 2022-11-21 23:32:30 发布

阅读量337

点赞数

分类专栏： python 爬虫文章标签：爬虫实例

本文链接：https://blog.csdn.net/qq_42662411/article/details/103453766

版权

本文介绍了如何手动设置cookie来爬取知乎的50条热搜新闻，包括热搜标题、热度、URL和图片。通过构造请求头headers，创建session对象存储cookie，然后抓取所需字段。最后，将数据保存到本地文件，每个文件包含一条热搜的详细信息，图片内容以Base64编码形式存储。

摘要由CSDN通过智能技术生成

设置cookie:手动设置cookie值的方式有两种一种通过往请求头headers里面添加cookie 另一种通过cookiejar设置cookie值本文采取往请求头headers里面添加cookie

1-构造请求头headers

# 这里的cookie需要你登录知乎 在network里面的all找到hot 然后在请求头里面找到你登录的cookie值
header={
   
    'user-agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36',
    'cookie':cookie
}

2-创建session对象将cookie值存入方便之后不需要重复写入cookie

sess = requests.Session()
sess.headers = header
url = 'https://www.zhihu.com/hot'
r = sess.get(url)
#print(r.text)

3-接下来就是获取知乎热搜新闻上我们需要的字段如热搜标题热搜热度热搜URL 热搜图片

selector = etree.HTML(r.text)

eles = selector.cssselect('div.HotList-list>section')

#total_ls=[]
for index,ele in enumerate(eles):
    #print(index+1)
    #temp_dict={}
    # 取第一个  因为是列表  所以把列表第一个值取出来 然后将列表转为普通的元素
    title = ele.xpath('./div[@class="HotItem-content"]/a/h2/text()')[0]
    #print(title)
    url = ele.xpath('./div[@class="HotItem-content"]/a/@href')[0]
    #print(url)
    hot = ele.xpath