话不多说直接上代码:
import re
from urllib import request
from urllib.request import urlopen
import pymysql as mysql
u = 'root'
p = 'root'
d = 'python'
sql = 'insert into bank_info values(%s,%s)'
url = 'http://www.cbrc.gov.cn/chinese/jrjg/index.html'
# 爬虫伪装浏览器步骤:
# 1. 定义一个真实浏览器的代理名称
myAgent = "Mozilla/5.0 (X11; Linux x86_64; rv:45.0) Gecko/20100101 Firefox/45.0" #这个是我当前火狐浏览器的信息
# 2.将代理写到请求页面的header里面去
myrequest = request.Request(url,headers={'User-Agent': myAgent} )
# 3. 打开网页, 获取内容
content = urlopen(myrequest).read().decode('utf-8')
# 获取对象:中国工商银行
pattern = r'
\s*