![c5426111792bbc27f90ae8d4d8599948.png](https://img-blog.csdnimg.cn/img_convert/c5426111792bbc27f90ae8d4d8599948.png)
由于工作要求,需要爬取企查查中批发业的所有企业的详细信息,本来准备用最简单的八爪鱼来爬取,但发现八爪鱼的爬取很鸡肋,因此特地学习python爬虫,以下只是简单的爬取需要的信息,之后更复杂的爬取还需要不断加强。
一、查看robots协议
https://www.qichacha.com/robots.txt
User-agent: **
Allow: /
Sitemap: https://www.qichacha.com/sitemap.xml
表示该网站允许任何爬虫任意爬取其内容
二、确定想要爬取的内容
![5b1d1b029d3ca2d7dcca074b4bc387cc.png](https://img-blog.csdnimg.cn/img_convert/5b1d1b029d3ca2d7dcca074b4bc387cc.png)
![9c85b24de36a0ca9422f51f67d956138.png](https://img-blog.csdnimg.cn/img_convert/9c85b24de36a0ca9422f51f67d956138.png)
想要爬取的内容为”批发与零售“大类下”批发业“中的各个企业的信息:包括企业名称、法定代表人、注册