selenium爬取新浪微博

最新推荐文章于 2021-04-11 17:39:50 发布

CoolScript

最新推荐文章于 2021-04-11 17:39:50 发布

阅读量1.5k

点赞数

分类专栏： python 文章标签： selenium+python

本文链接：https://blog.csdn.net/CoolScript/article/details/89348981

版权

逻辑很简单，先登录之后，搜索一个关键字，爬取内容

注意

使用mongodb数据库，注意update_one自带去重。
tqdm添加进度条
无头浏览器
不加载图片
使用scrapy的selector解析页面


from selenium import webdriver
from scrapy import Selector
import time
import pymongo
from tqdm import tqdm


# 链接到mongodb
client = pymongo.MongoClient('localhost', 27017)
# 使用名叫weibo的数据库
db = client.weibo

chrome_options = webdriver.ChromeOptions()
# 配置不加载图片
prefs = {
   "profile.managed_default_content_settings.images": 2}
chrome_options.add_experimental_option("prefs", prefs)
# 配置无头浏览器
chrome_options.add_argument('--headless')
browser = webdriver.Chrome(options=chrome_options)

# browser = webdriver.Chrome()

# 打开登陆页面
browser.get(

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

CoolScript

关注关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
1
评论
selenium爬取新浪微博

逻辑很简单，先登录之后，搜索一个关键字，爬取内容注意使用mongodb数据库，注意update_one自带去重。tqdm添加进度条无头浏览器不加载图片使用scrapy的selector解析页面from selenium import webdriverfrom scrapy import Selectorimport timeimport pymongofrom tqd...
复制链接

扫一扫