使用代理池爬取微信文章(pyquery+requests+mongoDb)

本文介绍了如何利用PyQuery、requests和MongoDB构建一个微信文章爬虫,其中涉及到代理池的使用。由于代理池的质量问题,可能会遇到无效代理,作者期待读者分享更优解决方案。
摘要由CSDN通过智能技术生成

在看本文之前需要了解有关代理维护的知识。
若不清楚如何维护代理池,可参考:https://github.com/Germey/ProxyPool
但是在用的过程中发现该方法代理池里面的代理质量不是很好,经常会出现代理无效的情况,若大家有更好的方法,欢迎评论留言告知,感谢!

############配置文件config.py
#mongodb的参数
MONGO_URL = 'localhost'
MONGO_DB = 'weixin'
MONGO_TABLE = 'article_data'

POOL_PROXY_URL = 'http://127.0.0.1:5000/get'   # 初始化代理
KEYWORDS= '风景'  # 搜索的内容
base_url = 'https://weixin.sogou.com/weixin?'

爬取文章的代码如下:

from pyquery import PyQuery as pq
import requests
from urllib.parse import urlencode
import pymongo
from config import *

# 设置cookies 保证自己处于登陆状态
headers = {
    'Cookie': 'SMYUV=1543916558046770; IPLOC=CN3210; SUID=824A933D2E18960A000000005C064C19; usid=xOxPgW3N3IoHtGbK; SUV=00EC55C13D934A825C064C1975830150; ld=ZZllllllll2tx6ZPlllllVZpFj9lllll5B23kkllll9lllllxllll5@@@@@@@@@@; LSTMV=247%2C70; LCLKINT=3969; ABTEST=0|1543916582|v1; weixinIndexVisited=1; SNUID=C008D27C41443EE5E68EBAC74227C258; sct=3; JSESSIONID=aaapI9Xh-AseD_U-Nw_Cw; ppinf=5|1544421555|1545631155|dHJ1c3Q6MToxfGNsaWVudGlkOjQ6MjAxN3x1bmlxbmFtZTo0OlRpbmF8Y3J0OjEwOjE1NDQ0MjE1NTV8cmVmbmljazo0OlRpbmF8dXNlcmlkOjQ0Om85dDJsdUJYcHpa
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值