1、爬虫的思路参考这篇博文
https://mp.csdn.net/postedit/83628587
2、数据库保存截图如下
3、python代码如下
#!/usr/bin/python3
#-*- coding: utf-8 -*-
import urllib.request
import re
import pymysql
#记录公司信息的字典,类似C语言的结构体
#字典中的字段包括:company,domain,legal_person,address,email,phone
gCompanyInfo = dict()
#伪装爬虫成浏览器
def spider2browser():
headers=("User-Agent","Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/38.0.2125.122 Safari/537.36 SE 2.X MetaSr 1.0")
opener = urllib.request.build_opener()
opener.addheaders = [headers]
urllib.request.instal