使用搜狗接口爬取微信公众号

最新推荐文章于 2024-05-17 10:01:38 发布

半吊子Py全栈工程师

最新推荐文章于 2024-05-17 10:01:38 发布

阅读量1.2w

点赞数 1

分类专栏：爬虫 python之多方面应用文章标签：爬虫微信搜狗 requests python3

本文链接：https://blog.csdn.net/qq_26877377/article/details/79764182

版权

这里使用搜狗接口来爬取微信公众号，

使用的代理池是以前使用redis和flask一起来维护的，在网上爬取的免费代理（想要详细了解的可以到前面文章了解）

主文件代码如下，尽量写了备注

from urllib.parse import urlencode

import pymongo
import requests
from lxml.etree import XMLSyntaxError
from requests.exceptions import ConnectionError
from pyquery import PyQuery as pq
from config import *

# 连接数据库
client = pymongo.MongoClient(MONGO_URI)
db = client[MONGO_DB]

# 爬取的url部分
base_url = 'http://weixin.sogou.com/weixin?'

# 请求头文件需要带上头cookie，不然只能访问10页信息
headers = {
'Cookie': 'SUID=F6177C7B3220910A000000058E4D679; SUV=1491392122762346; ABTEST=1|1491392129|v1; SNUID=0DED8681FBFEB69230E6BF3DFB2F8D6B; ld=OZllllllll2Yi2balllllV06C77lllllWTZgdkllll9lllllxv7ll5@@@@@@@@@@; LSTMV=189%2C31; LCLKINT=1805; weixinIndexVisited=1; SUIR=0DED8681FBFEB69230E6BF3DFB2F8D6B; JSESSIONID=aaa-BcHIDk9xYdr4odFSv; PHPSESSID=afohijek3ju93ab6l0eqeph902; sct=21; IPLOC=CN; ppinf=5|1491580643|1492790243|dHJ1c3Q6MToxfGNsaWVudGlkOjQ6MjAxN3x1bmlxbmFtZToyNzolRTUlQjQlOTQlRTUlQkElODYlRTYlODklOER8Y3J0OjEwOjE0OTE1ODA2NDN8cmVmbmljazoyNzolRTUlQjQlOTQlRTUlQkElODYlRTYlODklOER8dXNlcmlkOjQ0Om85dDJsdUJfZWVYOGRqSjRKN0xhNlBta0RJODRAd2VpeGluLnNvaHUuY29tfA; pprdig=j7ojfJRegMrYrl96LmzUhNq-RujAWyuXT_H3xZba8nNtaj7NKA5d0ORq-yoqedkBg4USxLzmbUMnIVsCUjFciRnHDPJ6TyNrurEdWT_LvHsQIKkygfLJH-U2MJvhwt

最低0.47元/天解锁文章

半吊子Py全栈工程师

关注

1
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
使用搜狗接口爬取微信公众号

这里使用搜狗接口来爬取微信公众号，使用的代理池是以前使用redis和flask一起来维护的，在网上爬取的免费代理（想要详细了解的可以到前面文章了解）主文件代码如下，尽量写了备注from urllib.parse import urlencodeimport pymongoimport requestsfrom lxml.etree import XMLSyntaxErrorfrom request...
复制链接

扫一扫