文章目录
PART1 前言
周末的时候,家里的小伙伴跟我说,手头上有一份公司清单(大约200家公司),需要获取公司对应的企业信用代码。如果一家一家地查,可能需要几个小时甚至更久,而且容易出错。不知道有没有好的办法可以实现?
刚开始我想到用爬虫去企查查上爬,但是转念就否定了这个想法。原因是,如果用爬虫,需要将企查查上所有的信息都爬下来,然后再去匹配我们需要的企业信用代码。这样数据量巨大,而且很浪费时间。
随后又想到了学爬虫时听到过一个库叫selenium,selenium是一个用于Web应用程序测试的工具,selenium测试直接运行在浏览器中,就像我们自己在操作网页一样,可以变相地用于爬虫。
所以思路就是用selenium来操作网页,将公司清单中的公司名称,一家一家地输入到企查查中,然后获取查询后的信息,最后保存在excel中就行了。整个过程其实就是模拟我们手工录入、查询、保存的过程,只不过用代码替我们去实现了。
前几天给同事演示,通过selenium打开OA系统并打印OA的过程,同事感慨怎么电脑像被鬼操控了一样,哈哈哈哈,很有那种感觉~
PART2 正文
整段代码比较长,还是分段给大家介绍。
一、 获取查询名单
【代码】
import openpyxl
#获取查询名单
list_name = []
path = r'C:\\Users\Lenovo\Desktop\企业名单_test.xlsx'
wb = openpyxl.load_workbook(path)
wb_sheet = wb['Sheet1']
maxrows = wb_sheet.max_row
for i in range(maxrows-1):
name = wb_sheet.cell(i+2,