Python学习笔记之阶段练习

这篇博客记录了使用Python进行实战练习的过程,包括从银行官网获取网址信息和爬取猫眼电影的前一百名榜单。通过这两个实例,展示了Python在网络数据抓取方面的应用。
摘要由CSDN通过智能技术生成
一、获得银行官网网址信息
from urllib import request
from urllib.request import urlopen
import re
url = 'http://www.cbrc.gov.cn/chinese/jrjg/index.html'
def get_content(url,fileName):
    """
    因为中国银行的官方网址的服务器可能会因为我们多次进行爬虫,
    而对我们的IP进行暂时的封锁,导致实验失败,因此我们只要成功一次,
    将数据保存即可
    :param url:
    :param fileName: 将网页的内容保存到本地文件中
    :return:
    """
    try:
        headers = {'User-agent': 'Chrome/23.0'}
        req = request.Request(url, headers=headers)

        with urlopen(req) as urlObj:
            content =  urlObj.read().decode('utf-8')
    except Exception as Error:
        print('爬取网页信息失败',Error)
    else:
        with open(fileName, 'w') as f:
            f.write(content)
            print('write success')

def get_file_content(fileName,url):
    get_content(url,fileName)
    with open(fileName) as f:
        return f.read().replace('\t', '')   #去掉文本内容中的许多\t
def get_bank_info(filName,url,New_filename):
    # <a href="http://www.jcfc.cn/" target="_blank"  style="color:#08619D">
    # 晋商消费金融股份有限公司
    content = get_file_content(filName,url)
    bank_infor = re.findall(r'<a
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值