爬虫
文章平均质量分 67
flwindaway
这个作者很懒,什么都没留下…
展开
-
python pd.read_html 快速爬取网页表格数据与常规请求解析方式对比
为爬取网页表格数据,较易容想到的常规方式是通过requests请求以及lxml解析xpath定位获取元素,此外还可以通过pandas库的**read_html**直接获取表格数据,在此对比两种方式的时间效率。原创 2019-08-21 15:35:15 · 11984 阅读 · 1 评论 -
科创板申报企业信息爬取入库(webdriver+xpath+pymysql)
科创板申报企业基本信息爬虫,模拟浏览器webdriver通过xpath提取目标信息自动建表写入mysql数据库原创 2019-08-16 17:41:23 · 729 阅读 · 0 评论 -
证监会行政处罚决定书爬取,从框架源代码获取url, requests 访问 xpath提取
证监会行政处罚决定书为证监会发布的对证券期货市场违法违规主体进行行政处罚的相关文书。可以将这些文书按照所涉及的行为进行分类,如涉嫌财务造假、市场操纵、未尽勤勉职责等,作为相应标签下的黑样本进一步进行其他研究。本文将尝试对这些行政处罚决定书进行爬取以格式化存储。原创 2019-08-17 19:47:13 · 3985 阅读 · 12 评论