python批量爬取公众号文章,写给即将正在找工作的Python攻城狮

html=response.text#得到网页的文本形式

print(html)

这里的请求头信息必须添加上cookie的信息,否则无法得到网页信息

网页的请求结果如下图所示,红色框标出的为我们需要的文章标题以及文章链接

在这里插入图片描述

2、解析网页

从得到的网页响应结果中我们可以看到,每篇文章的标题和链接都分别在"title"标签和"cover"标签后面,所以我们可以采用正则表达式直接对其进行解析

title=re.findall(‘“title”:“(.*?)”’,html)#得到文章标题

cover=re.findall(‘“cover”:“(.*?)”’,html)#得到文章链接

all=zip(title,cover)#利用zip方法,将两个列表中的数据一一对应

print(list(all))#list是对zip方法得到的数据进行解压

解析后结果如下

在这里插入图片描述

3、保存数据

for data in all:#for循环遍历列表

time.sleep(3)#每爬取一篇文章间隔3秒,以防触发反爬

with open(‘C:\Users\Administrator\Desktop\爬取公众号文章.csv’,‘a’,encoding=‘utf-8-sig’) as file:

#将数据保存到桌面

write=csv.writer(file)

write.writerow(data)

到此本次的爬虫就已经完成,我们来看一下最终结果在这里插入图片描述

完整代码


import re#用来解析网页

import requests#用来请求网页

import csv#用来保存数据

import time#用来设置每次爬取间隔的时间

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值