功能实现
爬取所有银行的银行名称和官网地址(如果没有官网就忽略),并写入数据库;
银行链接: http://www.cbrc.gov.cn/chinese/jrjg/index.html
编程思路
1.利用url访问页面并获取页面信息
2.利用正则表达式对页面信息进行筛选,获取我们需要的信息
3.保存至Mysql数据库中
1.获取网页信息并保存至文件
from urllib.request import urlopen
# 获取页面信息
def getPageInfo(url):
pageInfo = urlopen(url)
content = pageInfo.read().decode(‘utf-8‘)
return content
# 主函数
def main():
url = ‘http://www.cbrc.gov.cn/chinese/jrjg/index.html‘
pageInfo = getPageInfo(url)
print(pageInfo)
一些网站常常通过判断 UA(User-Agent用户代理) 来给不同的操作系统、不同的浏览器发送不同的页面,因此可能造成某些页面无法在某个浏览器中正常显示,但通过伪装 UA 可以绕过检测。
查看浏览器UA
获取页面信息
def main():
url = ‘http://www.cbrc.gov.cn/chinese/jrjg/index