python 爬虫保存为word_微信公众号文章爬虫,本地word文档保存

最新推荐文章于 2022-08-11 06:54:58 发布

weixin_39581972

最新推荐文章于 2022-08-11 06:54:58 发布

阅读量780

点赞数

文章标签： python 爬虫保存为word

大家好，我是小焦。今天给大家来说一说微信公众号的爬虫，提起这个爬虫我也是一肚子气。为什么呢？本来计划好好的，要做几个功能的。结果人算不如天算，只能草草了事了。老马的反爬还是有点厉害的。最初的设想是爬到公众号的文章，然后找到我们需要的公众号，然后将里面的内容提取的。结果遇到反爬，换cookie，使用selenium都会被检测到。技术薄微，也只能暂时止步。

爬虫思路：

起初，我是准备写一个类，完成爬取动作，后期进行调用的，结果发现没有函数好用，就进行了修改。整体流程就是利用搜狗微信的功能，来完成指定公众号的文章爬取。然后将文章链接保存到word文档中。

在研究搜狗微信的过程中，发现了几个小毛病。搜狗微信就跟搜索引擎差不多，作者发表一篇文章，要隔断时间才会在它上面显示，有的快有的慢。包括微信客户端，手机上推文和电脑端的也有时间差，有的甚至一直没更新。这也是我放弃此爬虫的原因吧。好了不讲这些了，来看看下面的代码吧，作为小白，乱写一通，大神不喜勿喷啊。

准备工作：

python3

调用的库：requests,urllib,pyquery,time,docx-python,datetime

这几个库就不用多做解释了，会爬虫的小伙伴经常会用到。docx是word的库，pyquery是解析库，大伙都认识。下面是我写的代码，大家仅供参考吧。

# 2020年8月29日

# 本次目标利用搜狗微信网站，进行指定公众号文章最新内容爬取。

import requests

from urllib.parse import quote

最低0.47元/天解锁文章

weixin_39581972

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
python 爬虫保存为word_微信公众号文章爬虫,本地word文档保存

大家好，我是小焦。今天给大家来说一说微信公众号的爬虫，提起这个爬虫我也是一肚子气。为什么呢？本来计划好好的，要做几个功能的。结果人算不如天算，只能草草了事了。老马的反爬还是有点厉害的。最初的设想是爬到公众号的文章，然后找到我们需要的公众号，然后将里面的内容提取的。结果遇到反爬，换cookie，使用selenium都会被检测到。技术薄微，也只能暂时止步。爬虫思路：起初，我是准备写一个类，完成爬取动作...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。