逻辑很简单,先登录之后,搜索一个关键字,爬取内容
注意
- 使用mongodb数据库,注意update_one自带去重。
- tqdm添加进度条
- 无头浏览器
- 不加载图片
- 使用scrapy的selector解析页面
from selenium import webdriver
from scrapy import Selector
import time
import pymongo
from tqdm import tqdm
# 链接到mongodb
client = pymongo.MongoClient('localhost', 27017)
# 使用名叫weibo的数据库
db = client.weibo
chrome_options = webdriver.ChromeOptions()
# 配置不加载图片
prefs = {
"profile.managed_default_content_settings.images": 2}
chrome_options.add_experimental_option("prefs", prefs)
# 配置无头浏览器
chrome_options.add_argument('--headless')
browser = webdriver.Chrome(options=chrome_options)
# browser = webdriver.Chrome()
# 打开登陆页面
browser.get(