python 下载公众号文章_最便捷的微信公众号文章下载器——基于Python爬虫微信文章...

最新推荐文章于 2024-07-08 11:40:39 发布

weixin_39863161

最新推荐文章于 2024-07-08 11:40:39 发布

阅读量169

点赞数

文章标签： python 下载公众号文章

单击顶部的“AI Time”以聚焦并设置为sta

加入人工智能技术社区！

通常闲逛，收集很多其他推荐的数据分析，机器学习与微信相关的公共号码。但在手机微信上逐页浏览历史文章，很不方便，电脑微信也不方便.

但是我的需求其实很简单“很容易找到\/检索/浏览任何关于公共号码的文章，”所以，在学习了搜索之后，我开始做一个小工具，尽管方法和代码相当简单。但事实上，手是相当方便的使用。也给附近的同伴安利几个微信文章浪。

所需工具：

输出二：wkhtmltopdf和pdfkit将html转换为PDF文件或图片文件

2.要使用Webriver函数，您需要安装相应的浏览器驱动程序插件。请注意，谷歌浏览器和Chrome驱动程序的版本需要相对应，否则会导致启动时间错误。

8.文章列表中的翻页和内容获取

4.文章列表分析与存储系统，对文章列表进行分析，建立收集队列，实现批量收集内容。

通过对多个账户的分析，可以确定：

1、编写按键脚本，在手机上自动点击公共号码文章列表页面，即“查看历史信息”；

(2)利用兜售代理劫持手机访问，并将URL转发到php编写的本地网页；

3.将PHP页面上的Web地址备份到数据库中。

4.使用python从数据库中提取URL，然后进行正常的爬行。

可能的问题：如果你只想抓取文章的内容，似乎没有访问频率的限制，但如果你想抓取阅读的数量，如点数，在一定频率之后，返回将变为空。

目标爬行站点包括微信平台上的大部分高质量微信公共数字文章，这些文章将定期更新。经过测试，发现该网站对爬行动物是友好的，网站页面的布局是固定的。在http：/chuansong.me/account/almosthuman2014链接中的帐户可以区分不同的公共号码，还有一条规则是在一组公共号码下翻阅文章：每页12页的ID。

传送门。巴新

所以过程理念是

解析请求页，提取文章链接和标微信文章题文本

保存信息提取结果

调用pdfkit和wkhtmltopdf转换网页

URL=http：r/chuansong.me.Accountr/‘str/startl"strWAY=圆形，2)#设置随机爬虫间隔，以避免阻塞时间.slephtml=get_one_page pattern1=re.fineitem 1=re.findall#list pattern2=re.php/spana href=“\/Accountr.*”样式=/r浮点：\/r)item 2=re.findall列表，如果它是：print退出；否则：打印微信文章

#您需要向请求中添加一个标头，否则将被Header={User-Agent：Mozilla/5.0AppleWebKitt/537.36 Chrome/60.3112.101 Safari/537.36‘}TRY：Response=requests.getresponse.range_for_Status#如果不是200时，HTTPError错误响应。编码=response.epencodingresponse.text：ref“将生成一个异常\”。

注意，目标爬虫站点必须添加标题，或者直接拒绝访问。

下面的代码用于解析html文本中的链接和标题文本信息

下面的代码通过增量迭代分配来更改url中的页码参数

Def main：url=‘http：/chuansong.me/account/"str‘？start="strprintwait=round，2)#设置随机爬虫间隔，避免被封time.sleephtml=get_one_pagefor item in parse_one_page：info=‘http：/chuansong.me"item[0]‘，"item[1]‘，"item[2]‘\n"info=repr)print#info.strip#这种去不掉首尾的“#info=info[1：-1]#这种去不掉首尾的“#info.Trim)#info.TrimStart.TrimEndwrite_to_file

由于某些字符在windows file命令下不可用，因此需要使用常规筛选。

使用熊猫的read_csv函数读取爬行的CSV文件，遍历“link”、\“Header”、\“Date”，并通过调用pdfkit函数转换生成PDF文件。

Wait=round，2)#设置随机爬虫间隔，避免被封time.sleep path=get_path path_wk=r‘D：\Program Files\wkhtmltopdf\bin\wkhtmltopdf.exe"#安装wkhtmltopdf的位置config=pdfkit.configurationif path==“：printelse：info=get_url_infofor indexs in info.index：url=info.loc[indexs][‘链接"]title=re.subdate=info.loc[indexs][‘日期"]wait=round，2)#设置随机爬虫间隔，Avoid time.sleep printwith eventlet.Timeout：pdfkit.from_url‘\"date title configuration=config)print

结果4.png

结果1.png

中心文件夹目录中的内容

由cente爬行的CSV内容格式

重印语句：本文是从“简略书”中选择的，搜索原始文本链接即可。

关注“Python学习联盟”

在后台回复“下载”

获取本文中的代码和EXE文件

免责声明：文章《最便捷的微信公众号文章下载器——基于Python爬虫微信文章》来至网络，文章表达观点不代表本站观点，文章版权属于原作者所有，若有侵权，请联系本站站长处理！

weixin_39863161

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
python 下载公众号文章_最便捷的微信公众号文章下载器——基于Python爬虫微信文章...

单击顶部的“AI Time”以聚焦并设置为sta加入人工智能技术社区！通常闲逛，收集很多其他推荐的数据分析，机器学习与微信相关的公共号码。但在手机微信上逐页浏览历史文章，很不方便，电脑微信也不方便.但是我的需求其实很简单“很容易找到\/检索/浏览任何关于公共号码的文章，”所以，在学习了搜索之后，我开始做一个小工具，尽管方法和代码相当简单。但事实上，手是相当方便的使用。也给附近的同伴安利几个微信文章...
复制链接

扫一扫