我想刮一页并收集所有链接。该页面显示30个条目并查看完整列表,点击全部加载按钮是必要的。点击按钮加载完整的HTML后,使用Selenium加载其他元素
我使用下面的代码:
from selenium import webdriver
from bs4 import BeautifulSoup
driver = webdriver.PhantomJS()
driver.get('http://www.christies.com/lotfinder/searchresults.aspx?&searchfrom=header&lid=1&entry=edgar%20degas&searchtype=p&action=paging&pg=all')
labtn = driver.find_element_by_css_selector('a.load-all')
labtn.click()
elem = driver.find_element_by_xpath("//*")
source_code = elem.get_attribute("outerHTML")
soup = BeautifulSoup(source_code, 'lxml')
url_list = []
for div in soup.find_all(class_ ='image-container'):
for childdiv in div.find_all('a'):
url_list.append(childdiv['href'])
print(url_list)
这里的HTML标记
我仍然得到原来的30个链接和初始密码。看来我没有正确使用硒,并想知道我做错了什么。
硒到目前为止工作。节点JS已安装,我设法做出截图并将其保存到文件中。