五一假期,研究了下Python抓取动态网页信息的相关操作,结合封面的参考书、网上教程编写出可以满足需求的代码。由于初涉python,过程中曲折很多,为了避免以后遇到问题找不到相关的信息创建本文。
准备工具:
- Python 3.8
- Google Chrome浏览器
- Googledriver
测试网站:
1.集思录(https://www.jisilu.cn/data/cbnew/#cb)
测试前准备:
1.配置python运行的环境变量,参照链接(https://www.runoob.com/python3/python3-install.html)
*本次测试主要采取两种方式抓取动态网页数据,一是requests及json分析的方式;一是selenium的方式。requests方式速度快,但有一些元素的链接信息抓取不到;selenium方式通过模拟打开浏览器的方式进行数据的抓取,由于要打开浏览器因此速度相对较慢,但是可抓取的信息比较全面。
主要抓取的内容如下:(网站中的一些可转债数据)