1、参考博文
2、python代码
#!/usr/bin/python3
#-*- coding: utf-8 -*-
import urllib.request
import re
import pymysql
#记录公司信息的字典,类似C语言的结构体
#字典中的字段包括:company,domain,legal_person,address,email,phone
gCompanyInfo = dict()
#伪装爬虫成浏览器
def spider2browser():
headers=("User-Agent","Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/38.0.2125.122 Safari/537.36 SE 2.X