目标:爬取新浪股票首页最近一小时十大热门股票
数据分析:
1、查看网页源代码,发现找不到数据
2、network分析数据,发现几乎全部是js代码动态渲染
因此决定采用selenium工具来进行数据爬取。
环境准备:
1、pip install selenium
2、下载chrome的驱动程序放到python的Scripts目录下 http://chromedriver.storage.googleapis.com/index.html
测试chrome及python是否全部ok,如果弹出空白的chrome浏览器, 则证明所有配置没有问题
brower = webdriver.Chrome()
from selenium import webdriver
try:
brower = webdriver.Chrome() #声明浏览器对象
brower.get(