搜狗微信公众号文章反爬虫完美攻克

最新推荐文章于 2024-03-20 09:58:49 发布

VIP文章 mr_guo_lei

最新推荐文章于 2024-03-20 09:58:49 发布

阅读量7.4k

点赞数

分类专栏： python笔记文章标签：微信搜狗 chrome selenium python

本文链接：https://blog.csdn.net/mr_guo_lei/article/details/78643974

版权

很简单，selenium + chromedriver，搜狗的部分直接在chrome模拟浏览器内部操作即可，而mp.weixin.qq.com则是腾讯的了，不反爬虫，用urllib requests等等即可。

需要扫码登陆，不扫码只能采取10页数据

from selenium import webdriver
import time
from bs4 import BeautifulSoup
import threading

driver = webdriver.Chrome()
driver.get("http://weixin.sogou.com/")
driver.find_element_by_xpath('//*[@id="loginBtn"]').click()

find = input("输入你想查找的关键词")
driver.find_element_by_xpath('//*[@id="query"]').send_keys("%s"%find)
driver.find_element_by_xpath('//*[@id="searchForm"]/div/input[3]').click()
time.sleep(2)

url_list = []
while True:
    page_source = driver.page_source
    #print(page_source)
    bs_obj = BeautifulSoup(page_source,"html.parser")
    one_url_list = bs_obj.findAll("div",{"class":"txt-box"})
    for u

最低0.47元/天解锁文章

优惠劵

mr_guo_lei

关注关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
1
评论
搜狗微信公众号文章反爬虫完美攻克

很简单，selenium + chromedriver，搜狗的部分直接在模拟浏览器内部操作即可，而mp.weixin.qq.com则是腾讯的了，不反爬虫，用urllib requests等等即可
复制链接

扫一扫