写在开始:最近在学selenium模块时,尝试使用selenium提取了斗鱼直播的房间信息,其中有两处bug,一,提取完第一页信息完之后,反转到第二页时信息提取错误,第二就是,拿不到直播的封面,后续我会继续修改,本源码我是在网上查找的,但是源码也有问题,我是在原有的基础上修改了一下
这是我自己写的:
from selenium import webdriver
import time
class Douyu(object):
def __init__(self):
self.url = 'https://www.douyu.com/directory/all'
self.driver = webdriver.Chrome()
def parse_data(self):
time.sleep(3)
room_list = self.driver.find_elements_by_xpath('//*[@id="listAll"]/section[2]/div[2]/ul/li/div/a') # 解析父节点
print(len(room_list))
data_list = []
for room in room_list:
temp = {}
temp['title'] = room.find_element_by_xpath('./div[2]/div[1]/h3').text
temp['type'] = room.find_element_by_xpath('./div[2]/d