1.天天基金网站
2.看一下数据的格式
上图可以看到85.11%那个表格对应的是右边的标签。且该表格是动态,不能直接用request.get(url)来获取,最重要的是,我们要爬取所有的排行榜的话需要点击下一页,而该网站点击下一页的时候,其url不会变化,所以用selenium比较合适。
3.找到对应的xpath
右键上图的标签->copy->copy xpath
4.selenium操作
这里主要讲一下模拟点击操作,一般情况下是点击下一页,按页数爬取。但我发现该页面有一个按钮叫‘不分页’,这样可以省去模拟点击次数,但还是需要用模拟点击操作对不分页按钮进行点击。
点击代码是
element = driver.find_element_by_xpath('//*[@id="sh