python 爬虫保存为word_微信公众号文章爬虫,本地word文档保存

大家好,我是小焦。今天给大家来说一说微信公众号的爬虫,提起这个爬虫我也是一肚子气。为什么呢?本来计划好好的,要做几个功能的。结果人算不如天算,只能草草了事了。老马的反爬还是有点厉害的。最初的设想是爬到公众号的文章,然后找到我们需要的公众号,然后将里面的内容提取的。结果遇到反爬,换cookie,使用selenium都会被检测到。技术薄微,也只能暂时止步。

爬虫思路:

起初,我是准备写一个类,完成爬取动作,后期进行调用的,结果发现没有函数好用,就进行了修改。整体流程就是利用搜狗微信的功能,来完成指定公众号的文章爬取。然后将文章链接保存到word文档中。

在研究搜狗微信的过程中,发现了几个小毛病。搜狗微信就跟搜索引擎差不多,作者发表一篇文章,要隔断时间才会在它上面显示,有的快有的慢。包括微信客户端,手机上推文和电脑端的也有时间差,有的甚至一直没更新。这也是我放弃此爬虫的原因吧。好了不讲这些了,来看看下面的代码吧,作为小白,乱写一通,大神不喜勿喷啊。

准备工作:

python3

调用的库:requests,urllib,pyquery,time,docx-python,datetime

这几个库就不用多做解释了,会爬虫的小伙伴经常会用到。docx是word的库,pyquery是解析库,大伙都认识。下面是我写的代码,大家仅供参考吧。

# 2020年8月29日

# 本次目标利用搜狗微信网站,进行指定公众号文章最新内容爬取。

import requests

from urllib.parse import quote

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值