python3爬虫用代理池爬虫搜狗微信文章

最新推荐文章于 2020-09-27 16:28:37 发布

zhyydawn

最新推荐文章于 2020-09-27 16:28:37 发布

阅读量854

点赞数

文章标签：爬虫代理池

本文链接：https://blog.csdn.net/qq_42689278/article/details/84843654

版权

本文是通过搜狗微信，爬取有关python相关文章的标题，正文内容，公众号，发表日期等信息，把获取到的信息保存到mongodb中，因为需要用到代理池，所有需要先配置好代理池，代理词github地址：https://github.com/germey/proxypool ，安装方法参考里面的说明就行，此外需要安装好mongodb数据库和pymongo库，开发使用的是pycharm。
一，准备工作
首先新建一个项目名为weixinspider,在项目下面新建weinxin.py文件，然后打开搜狗微信页面，输入python,打开第一页，按f12查看页面结构：

在这里插入图片描述
可以看到请求的方式是get方法，请求的url是带参数的，把页面向下拉可以看到具体的参数信息，可以在爬虫中构造这些参数

构造的paramdata参数如下：

paramdata={
    'type': '2',
    'query': 'python',
    'ie': 'utf8',
    's_from': 'input',
    '_sug_&

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

zhyydawn

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

【Python爬虫教程】进阶篇-11 使用代理获取微信公众号文章

仲君Johnny的博客

02-26

3463

以上内容便是使用代理爬取微信公众号文章的方法，涉及的新知识点不少，希望大家可以好好消化。

python3 爬取搜狗微信的文章

triangle的技术博客

03-10

4148

目标地址：http://weixin.sogou.com/weixin? 这个地址是搜狗微信的文章搜索，可以搜索到微信的文章，而我们目标就是这些文章内容这个url经过测试，当我们没登陆微信只能看到10页的内容，我们登陆后才可以查看100页的内容，而且翻页多次会出现ip检测的反爬机制，出现302重新跳转到验证码输入页面，输入验证码后才可以继续浏览网页于是我们就利用代理池来解决这个反爬。...

参与评论您还未登录，请先登录后发表或查看评论

Python-基于搜狗微信搜索的微信公众号爬虫接口

08-10

基于搜狗微信搜索的微信公众号爬虫接口

python爬虫——使用xpath爬取搜狗微信文章

小爬虫的博客

04-07

1270

缺点：爬取一定数量之后会出现验证码，导致不能继续爬取，需要更换ip才可以继续爬取，或者在浏览器重新输入验证码之后复制cookie后方能继续爬取。 import requests from fake_useragent import UserAgent from urllib.parse import urlencode from lxml import etree import re import...

python爬搜狗微信获取指定微信公众号的文章

weixin_30363981的博客

06-22

193

前言：之前收藏了一个叫微信公众号的文章爬取，里面用到的模块不错。然而偏偏报错= =。果断自己写了一个正文：第一步爬取搜狗微信搜到的公众号： http://weixin.sogou.com/weixin?type=1&query=FreeBuf&ie=utf8&s_from=input&_sug_=n&_sug_type_=1&w=0...

Python-知网搜狗微信搜狗新闻的爬虫

08-10

需要说明的是，本文中介绍的都是小规模数据的爬虫（数据量<1G），大规模爬取需要会更复杂，本文不涉及这一块。另外，代码细节就不过多说了，只将一个大概思路以及趟过的坑。

Python爬虫：爬取微信文章

DR_eamMer的博客

03-18

1060

以搜狗的微信搜索作为爬虫入口，http://weixin.sogou.com/weixin? 对于封ip的反爬虫机制，可以通过IP代理池解决。IP代理池，可以在GitHub中获取，这里用的是这个https://github.com/Germey/ProxyPool。readme文件中有详细的使用方法 import requests from urllib.parse import urlenc...

Python爬虫系统：搜狗微信爬虫 WechatSogou-master.zip

最新发布

05-10

Python爬虫系统：搜狗微信爬虫 WechatSogou-master 搜狗微信爬虫 WechatSogou-master 是一个基于 Python 编写的强大的微信公众号爬虫系统，旨在提供一种便捷而高效的方式来获取微信公众号的文章内容和相关信息。该...

python爬虫爬取搜狗微信文章(代理池+re从跳转链接中找到真实URL问题)

LDLDL的博客

07-19

3468

作者最近在学习python爬虫，在爬取微信文章这个实战项目中遇到了一些小问题，所以写这篇文章来记录一下，顺便分享一下爬取过程。整体思路我们选择从搜狗的微信界面（‘https://weixin.sogou.com/’）来获取微信文章的基本信息，由于搜狗有反爬措施，采用代理池，先将搜狗搜索的结果页的源码爬取，之后解析出这一页的文章链接，翻页，继续解析至最后一页，最后访问文章链接获取源码提取所需信息保存到MongoDB中准备工作代理池ProxyPool：代理池的作用是用来应对sougo的反爬虫措.

搜狗翻译爬虫

08-21

Python3的搜狗翻译爬虫。

微信爬虫，微信万能cookie，微信阅读数采集，搜狗微信转永久拦截，微信评论采集.zip

01-19

爬虫（Web Crawler）是一种自动化程序，用于从互联网上收集信息。其主要功能是访问网页、提取数据并存储，以便后续...然而，使用爬虫需要遵守法律和伦理规范，尊重网站的使用政策，并确保对被访问网站的服务器负责。

requests利用selenium,代理Ip,云打码，验证码抠图操作爬取搜狗微信公众号内容

weixin_30614587的博客

10-29

236

爬取思路，爬取搜狗微信公众号内容，爬取第一层url时请求太快出现验证码，我这里用的蘑菇云代理，并在程序中我判断什么情况下是否＋代理，做到合理运用代理ip。爬取第二层url时验证码出现次数更严重(和第一层验证码完全不一样)，一开始也用更换代理，但是感觉不怎么解决问题，后来利用selenium自动打开该页面，并把验证码图片抓取下来，然后发现抓下来的并不是页面中的真实验证码，估计是网站加密的原因...

【python】网络爬虫

rikka

05-05

1164

爬虫爬虫就是通过编写程序模拟浏览器上网，让其去互联网中抓取数据的过程。分类通用爬虫：爬取一整张页面源码数据。聚焦爬虫：爬取页面中局部的数据。一定是在通用爬虫的基础上实现。增量式爬虫：用来监测网站数据更新的情况。以便于爬取最新更新出来的数据！爬虫合法性风险爬虫干扰了被访问网站的正常运营爬虫抓取了受到法律保护的特定类型的数据或信息。规避风险严格遵守网站设置的robots...

Python3爬取搜狗微信公众号

unclezou的博客

03-19

3799

本文主要参考《python3网络爬虫开发实战》，来实现对相应关键词的微信公众号的爬取。爬虫的API借口为https://weixin.sogou.com/

python搜狗微信搜索wechatsogou 用法

乐亦亦乐的博客

08-20

8560

安装 pip install wechatsogou --upgrade 使用初始化 API import wechatsogou # 可配置参数 # 直连 ws_api = wechatsogou.WechatSogouAPI() # 验证码输入错误的重试次数，默认为1 ws_api = wechatsogou.WechatSogouAPI(captcha_break_t...

python爬虫之requests篇1 爬取搜狗首页

坚持去坚持。

09-27

388

python爬虫之requests篇1 爬取搜狗首页 # 引入第三方requests库 import requests if __name__ == '__main__': # 定义爬取的网页地址 url = 'https://www.sogou.com/' # 这边用requests模块内封装的方法去传入url去获取页面数去 # 获取到数据之后用response去接收数据 # 默认以unicode形式返回网页内容，也就是网页源码的字符串 response =

Python3爬虫代理池维护详解：高效易用的代理池搭建

Python3、爬虫、代理池维护是本篇文章的主要标签，这三个标签是紧密相连的，因为代理池是爬虫中非常重要的一部分，而Python3是实现爬虫和代理池的主要编程语言。 **知识点总结** 1. **代理池的重要性** 代理池是...