![ee8bd527160909120ac68b779ec5d9c2.png](https://i-blog.csdnimg.cn/blog_migrate/802991511c491f9b70b54f495f72d17c.jpeg)
五一假期,研究了下Python抓取动态网页信息的相关操作,结合封面的参考书、网上教程编写出可以满足需求的代码。由于初涉python,过程中曲折很多,为了避免以后遇到问题找不到相关的信息创建本文。
准备工具:
- Python 3.8
- Google Chrome浏览器
- Googledriver
测试网站:
1.集思录(https://www.jisilu.cn/data/cbnew/#cb)
测试前准备:
1.配置python运行的环境变量,参照链接(https://www.runoob.com/python3/python3-install.html)
*本次测试主要采取两种方式抓取动态网页数据,一是requests及json分析的方式;一是selenium的方式。requests方式速度快,但有一些元素的链接信息抓取不到;selenium方式通过模拟打开浏览器的方式进行数据的抓取,由于要打开浏览器因此速度相对较慢,但是可抓取的信息比较全面。
主要抓取的内容如下:(网站中的一些可转债数据)
![2f4e4e62d06c87294d5a95ec780b101b.png](https://i-blog.csdnimg.cn/blog_migrate/57f45c3db84e24f86429c8285091c17d.jpeg)
requests 方式抓取网站信息:
Python需要安装的相关脚本:Requests
安装方式:管理员身份运行cmd;输入 pip install requests 命令,安装成功后会有提醒。如果一次不能安装成功就多安装几次
(前提相关的端口没有封闭)。如果pip版本不是最新的,会提醒更新pip的版本,pip的环境变量也要设置,设置方式参照python的设置方式。
requests抓取代码如下:
import requestsimport jsonurl='https://www.jisilu.cn/data/cbnew/cb_list/?___jsl=LST___'return_data = requests.get(url,verify = False)js=return_data.json()for i in js['rows']: print(i['id']+" "+i['cell']['bond_nm']+" "+i['cell']['price'])
最终结果如下:
![611198b52d565096e6db555bf9b58cbe.png](https://i-blog.csdnimg.cn/blog_migrate/dbe50c54e9f0f06d2da160b29bde0a14.jpeg)
注意两个要点:
找到正确的url:chrome打开集思录网站(https://www.jisilu.cn/data/cbnew/#cb)。点击F12键,弹出的开发工具窗口中选network,然后选XHR,点F5键刷新。在name的那一栏里逐个点击,找到所需的XHR。通过preview可发现“?__jsl=LST”对应的XHR就是我们要寻找的,在headers里可以查到对应的url。
![7f2460cb5bb6a92b0610cf1f7f447137.png](https://i-blog.csdnimg.cn/blog_migrate/8a18af9722c08acc33b283b5f5a20003.jpeg)
json将requests的数据格式进行转化,方便数据查找。通过json格式转化之后,requestes的数据格式与preview的格式一致。如果要定位到“国轩转债”那栏数据,则使用代码js['rows']['cell']['bond_nm']*selenium抓取网页数据:
![08b2c7d7732ab00a133cbc37b4c55317.png](https://i-blog.csdnimg.cn/blog_migrate/cfc6d16870bdcea15ba963cd50a3b2b8.jpeg)
python 需安装的脚本:selenium(安装方式参照requests安装)
配置与浏览器相对应的webdriver。以chrome为例,下载与chrome版本对应(在地址栏输入chrome://version后回车查看chrome的版本)的driver。放在chrome安装的文件夹下,并设置环境变量。
selenium抓取代码如下:
from selenium import webdriverimport timedriver=webdriver.Chrome()url1='https://www.jisilu.cn/data/cbnew/#cb'bes=driver.get(url1)time.sleep(5) #增加延时命令,等待元素加载driver.find_element_by_tag_name("tr").click() #增加延时,等待元素加载table_tr_list=driver.find_element_by_xpath("//*[@id='flex_cb']").find_elements_by_tag_name("tr") #后面一个element改成elementsfor tr in table_tr_list: if len(tr.get_attribute('id'))>0: print(tr.find_element_by_xpath("//*[@id=%d]/td[1]/a"%(int(tr.get_attribute('id')))).text+" "+tr.find_element_by_xpath("//*[@id=%d]/td[2]"%(int(tr.get_attribute('id')))).text)driver.quit()
运行结果如下:
![0c337e4c2a727321cd61484ddded6aa9.png](https://i-blog.csdnimg.cn/blog_migrate/ae1400a31875c7dd7e8cd32dd504c728.jpeg)
注意三个要点:
1、要加上延时命令( time.sleep(5) ),否则可能出现寻找不到元素的报错(NoSuchElementException异常)
2、利用find_element_by_xpath时,可以在网页开发器中右击copy xpath,确认该元素的路径。
![a47799127c006faa356df1c612b825a6.png](https://i-blog.csdnimg.cn/blog_migrate/49d1e293b2c474bbbb13d874b6f52514.jpeg)
3、传送ID时,将字符转为数值,并注意清除空字符
抓取的数据也可通过python 保存到excel里。