以下内容仅限于学习使用
用到的工具
- selenium
- python
- docker 用来部署在云端服务器上
- xpath 用来定位元素
爬了什么
主要爬了直播房间的名字、热度、作者、分类。
主要思路就是使用selenium直接爬
import time
import logging
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.common.desired_capabilities import DesiredCapabilities
# LOG_FORMAT = "%(asctime)s - %(levelname)s - %(message)s"
# logging.basicConfig(filename='scrapy.log', level=logging.DEBUG,
# format=LOG_FORMAT)
with webdriver.Remote("http://127.0.0.1:4444/wd/hub",
DesiredCapabilities.CHROME) as driver:
url = 'https://www.douyu.com/directory/all'
driver.get(url)
driver