公众号简单爬虫--把公众号文章全部转载到网站（二）

最新推荐文章于 2024-05-13 15:37:43 发布

自动工坊

最新推荐文章于 2024-05-13 15:37:43 发布

阅读量830

点赞数

分类专栏：高效办公文章标签： python爬虫中文编程

本文链接：https://blog.csdn.net/qq_36745263/article/details/89255647

版权

根据上一篇的方法,我们得到了一个获取列表信息的地址,而且是用get方法就可以的地址.那么事情就变得很简单了,就是常规的爬取信息和提取需要的内容.

上代码之前,有些必要的说明:

地址的’offset’参数,就是历史消息的起始位置,’ count’参数是返回条数,fiddler获取到的地址的offset一般是10,也有其他的.count最大为10,可以设置比10少的,这个返回多少天的信息,不是多少条信息.

获取到的网址有时间限制,一般10来20分钟左右就失效.

爬取速度不能太快,试过0.5秒,爬取几页就被禁了.电脑版微信也被禁止打开微信公众号了.这样的情况,等1个小时再重新登录后恢复正常.

爬到信息之后就是提取信息,这个有点繁琐,直接看代码吧.不话又说回来，不知是不是我这里网络的问题，爬虫本身也够慢的，其实也不用延迟什么的。

代码有三个方法，一个是获取所有信息，但不提取，一个是提取所有信息，不单是文章，还包括图片和普通文字信息。一个是单单提取文章的信息。

代码如下。如果一次下载不完，那么再次获取新的地址，然后从错误记录文件里的起始位置再开始，继续爬。

代码如下：

# -*- coding: utf-8 -*-
"""
Created on Fri Apr 12 10:30:47 2019
获取所有历史消息

@author: 浩海泛舟
"""
import urllib as 包_网址爬取
import json as 包_json解释
import time as 包_时间
from io import BytesIO as 包_字节读写
import gzip as 包_压缩

def 方法_保存文件(文件路径,内容):
    文件 = open(文件路径,'w',encoding='utf-8')
    文件.write(内容)
    文件.close()
    return 

def 方法_保存json文件(文件路径,内容): 
    print('正在写入',文件路径)
    with open(文件路径, 'w',encoding='utf-8') as json文件:   #加入 encoding = 'utf-8'确保编码
             json文件.write(包_json解释.dumps(内容, ensure_ascii=False)) #加入  ensure_ascii=False 确保保存文件显示为正常中文
    print(文件路径,'写入完毕！') 


def 方法_获取网址起始位置信息(网址):
    网址分拆 = 网址.split('&')
    for 部分 in 网址分拆:
        if 'offset=' in 部分:
            起始位置 = 部分
            break
    return 起始位置


# 根据url获取网页html内容
def 方法_获取网页(网址):
    请求头 = {'Host': 'mp.weixin.qq.com'
               ,'Connection': 'keep-alive'
               ,'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8'
               ,'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36 MicroMessenger/6.5.2.501 NetType/WIFI WindowsWechat QBCore/3.43.1021.400 QQBrowser/9.0.2524.400'
               ,&#

最低0.47元/天解锁文章

自动工坊

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
公众号简单爬虫--把公众号文章全部转载到网站（二）

根据上一篇的方法,我们得到了一个获取列表信息的地址,而且是用get方法就可以的地址.那么事情就变得很简单了,就是常规的爬取信息和提取需要的内容.上代码之前,有些必要的说明:地址的’offset’参数,就是历史消息的起始位置,’ count’参数是返回条数,fiddler获取到的地址的offset一般是10,也有其他的.count最大为10,可以设置比10少的,这个返回多少天的信息,不是多少...
复制链接

扫一扫