关于爬虫的知识很早之前就学过,但时间久了,不用的话就都忘了。还好当时笔记有写在我的印象笔记上~~
1)今天公司要求在新三板上爬取部分上市公司数据,要求400家公司的名称,以及其所属类型,创/基。
全国中小企业股份转让系统
需要爬取的内容:选取行业类型为互联网相关的公司,然后爬取相应的公司名字,公司代码中基/创
2)查看网页源代码,发现里面并没有需要的核心内容。
通过分析页面请求的方法爬取动态加载页面的思路,找到那个发请求的JavaScript文件所发的请求。
打开开发者工具,选择Network选项卡,选择XHR or JS
点第二页,发现XHR多出来一项,这就是JS文件请求。