这周接了个小活,发个博客庆祝一下
需要从https://www.mwcbarcelona.com/exhibition/2019-exhibitors/这个网站上将所有的公司照下来(24000+),并在其中找到所有总部位于中国的公司,列成一张列表。
这项任务考察了关于爬虫的诸多要点,从难度上来说还是比较简单的。
难点在于,由于网站并没有列出这些公司到底是哪一个国家的,因此需要自己到网上找信息,而由于这些公司在网站上以英文表述,但是在国内注册是用的是中文,因此在工商局、企查查等平台上查询的时候总是失败。并且很多公司在百度百科上是找不到的。
我也尝试了SEC.gov(U.S. Securities and Exchange Commission)等国外的平台,但由于很多公司没有注册,因此也不能查全。
我突然灵光一现,为什么要那么麻烦呢。经过交流之后,我确定了如下的解决方案
1、进入留在mwc网站上的这些公司的官网(如果有的话)如果其中有中文,则认定这是一家中国公司。
2、查询他们留在mwc网站上的电话,如果归属于中国,就认定他们是中国公司
这样,所有的困难都被规避了,实测下来效果不错。