2024年最新京东商城面试题，python批量爬取公众号文章，2024年最新Python面试题集2024版

最新推荐文章于 2024-05-01 02:18:09 发布

2401_84132723

最新推荐文章于 2024-05-01 02:18:09 发布

阅读量804

点赞数 14

分类专栏： 2024年程序员学习文章标签： python 开发语言

本文链接：https://blog.csdn.net/2401_84132723/article/details/138127150

版权

2024年程序员学习专栏收录该内容

8 篇文章 0 订阅

订阅专栏

收集整理了一份《2024年最新Python全套学习资料》免费送给大家，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友。

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上Python知识点，真正体系化！

由于文件比较多，这里只是将部分目录截图出来

如果你需要这些资料，可以添加V无偿获取：hxbc188 （备注666）

正文

查找我们爬取的目标数据所在位置，点击通过查找得到的包，得到目标网址以及请求头信息

在这里插入图片描述

请求网页

headers={

‘User-Agent’: ‘Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36’,

‘cookie’: ‘pgv_pvi=2389011456; RK=x4Sdy3WsT4; ptcz=4a2fe0ffda6742a230c94f168291afcce2bd001e5d6615132b55da90559cd463; pgv_pvid=6989331736; _ga=GA1.2.735850052.1585832762; ptui_loginuin=1207020736; ua_id=iJuK7hnHjcUE0e2dAAAAAHzCRcatCWOiHc-hdkhSDL4=; __guid=166713058.1972731636944397800.1590316882436.5461; openid2ticket_oY8wqwesgvgkdQ69wUeM5UxhOV5c=ION52/k2w4M3o44iht5BRt5yCyxP/3IaRXJ84RIpRZA=; mm_lang=zh_CN; pac_uid=0_5ecd1592971c3; uin=o1240069166; skey=@YLtvDuKyj; pgv_info=ssid=s4875389884; pgv_si=s8410697728; uuid=62839906b2a77b5f098cd91979af8b33; rand_info=CAESIC53TQFCwjIe4ZsrTRKvSs+ocfs4UTsj9swrrNwosjCd; slave_bizuin=3240807523; data_bizuin=3240807523; bizuin=3240807523; data_ticket=AiTk/OFWXCKxhaenCvEuP06mwWTI6YqCyt+74hoaXaNtKBbcnq//ZTXHzqByMhK6; slave_sid=YndxeFhCSkU5OUJtdFYycW9zN29FcG51NU5GNElBM3I2RF9wVjJBRGx2bWxrTXdiMDZFYzllUWNaMlN4N0RsOTlVMDRxZFZEMjJXdlRZcXBVOGptQ2ZDSVZiOEJlQW5BZDVCWlkzSnJ6WWNPWVRiN1J0cldCd0pvbTc3RGRiMm9pZ3ZISTl6WWhDUmNCZ2s3; slave_user=gh_5d822fe7fd08; xid=9794daa60db66fcf7a65c4054e3d68ce; mmad_session=43d4e5247a6b025b67ba3abd48d27a309ec4713911b6ef6f23cddb4b9953e771354ad1572fbc3fa895051725e95abb887cf2d03e9864084974db75c8588189699ea5b20b8fe35073831446ef98d24de600f107fe69d79646a3dd2907ab712e1f11de1c56c245721266e7088080fefde3; ts_last=mp.weixin.qq.com/cgi-bin/frame; ts_uid=1963034896; monitor_count=15’

}#请求头信息，这里cookie信息必须添加，否则得不到网页信息

url=‘https://mp.weixin.qq.com/cgi-bin/appmsg?action=list_ex&begin=0&count=5&fakeid=MjM5MjAxMDM4MA==&type=9&query=&token=59293242&lang=zh_CN&f=json&ajax=1’

response=requests.get(url,headers=headers)#得到响应内容

response.encoding=‘utf-8’#设置响应内容为utf-8格式

html=response.text#得到网页的文本形式

print(html)

这里的请求头信息必须添加上cookie的信息，否则无法得到网页信息

网页的请求结果如下图所示，红色框标出的为我们需要的文章标题以及文章链接

在这里插入图片描述

2、解析网页

从得到的网页响应结果中我们可以看到，每篇文章的标题和链接都分别在"title"标签和"cover"标签后面，所以我们可以采用正则表达式直接对其进行解析

title=re.findall(‘“title”:“(.*?)”’,html)#得到文章标题

cover=re.findall(‘“cover”:“(.*?)”’,html)#得到文章链接

all=zip(title,cover)#利用zip方法，将两个列表中的数据一一对应

print(list(all))#list是对zip方法得到的数据进行解压

解析后结果如下

在这里插入图片描述

3、保存数据

for data in all:#for循环遍历列表

time.sleep(3)#每爬取一篇文章间隔3秒，以防触发反爬

with open(‘C:\Users\Administrator\Desktop\爬取公众号文章.csv’,‘a’,encoding=‘utf-8-sig’) as file:

#将数据保存到桌面

write=csv.writer(file)

write.writerow(data)

到此本次的爬虫就已经完成，我们来看一下最终结果在这里插入图片描述

完整代码

import re#用来解析网页

import requests#用来请求网页

import csv#用来保存数据

import time#用来设置每次爬取间隔的时间

请求网页

index=0

headers={

‘User-Agent’: ‘Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36’,

}#请求头信息，这里cookie信息必须添加，否则得不到网页信息

for i in range(2):#设置for循环实现翻页，爬取多页内容，这里range括号内的参数可以更改

url=‘https://mp.weixin.qq.com/cgi-bin/appmsg?action=list_ex&begin=’+str(index)+‘&count=5&fakeid=MjM5MjAxMDM4MA==&type=9&query=&token=59293242&lang=zh_CN&f=json&ajax=1’

response=requests.get(url,headers=headers)#得到响应内容

response.encoding=‘utf-8’#设置响应内容为utf-8格式

html=response.text#得到网页的文本形式

解析网页

title=re.findall(‘“title”:“(.*?)”’,html)#得到文章标题

cover=re.findall(‘“cover”:“(.*?)”’,html)#得到文章链接

all=zip(title,cover)#利用zip方法，将两个列表中的数据一一对应

print(list(all))#list是对zip方法得到的数据进行解压

保存数据

for data in all:#for循环遍历列表

time.sleep(3)#每爬取一篇文章间隔3秒，以防出发反爬

with open(‘C:\Users\Administrator\Desktop\爬取公众号文章.csv’,‘a’,encoding=‘utf-8-sig’) as file:

#将数据保存到桌面

write=csv.writer(file)

write.writerow(data)

pass

（1）Python所有方向的学习路线（新版）

这是我花了几天的时间去把Python所有方向的技术点做的整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照上面的知识点去找对应的学习资源，保证自己学得较为全面。

最近我才对这些路线做了一下新的更新，知识体系更全面了。

在这里插入图片描述

（2）Python学习视频

包含了Python入门、爬虫、数据分析和web开发的学习视频，总共100多个，虽然没有那么全面，但是对于入门来说是没问题的，学完这些之后，你可以按照我上面的学习路线去网上找其他的知识资源进行进阶。

在这里插入图片描述

（3）100多个练手项目

我们在看视频学习的时候，不能光动眼动脑不动手，比较科学的学习方法是在理解之后运用它们，这时候练手项目就很适合了，只是里面的项目比较多，水平也是参差不齐，大家可以挑自己能做的项目去练练。

在这里插入图片描述

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

如果你需要这些资料，可以添加V无偿获取：hxbc188 （备注666）

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！
浅尝辄止，不再深入研究，那么很难做到真正的技术提升。**

如果你需要这些资料，可以添加V无偿获取：hxbc188 （备注666）
[外链图片转存中…(img-V5IrhA5r-1713856464195)]

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

2401_84132723

关注

14
点赞
踩
13

收藏

觉得还不错? 一键收藏
0
评论
2024年最新京东商城面试题，python批量爬取公众号文章，2024年最新Python面试题集2024版

我们在看视频学习的时候，不能光动眼动脑不动手，比较科学的学习方法是在理解之后运用它们，这时候练手项目就很适合了，只是里面的项目比较多，水平也是参差不齐，大家可以挑自己能做的项目去练练。这是我花了几天的时间去把Python所有方向的技术点做的整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照上面的知识点去找对应的学习资源，保证自己学得较为全面。all=zip(title,cover)#利用zip方法，将两个列表中的数据一一对应。
复制链接

扫一扫