爬取东方财富网数据笔记

小白是如何学习爬虫的?首先先从简单的入手,在b站上寻找爬虫视频,这里推荐Python爬虫编程基础5天速成(2021全新合集)Python入门+数据分析_哔哩哔哩_bilibili

有编程基础的仅需要观看其中部分爬虫视频即可,如果没有编程基础可以自行观看完整视频。这里的爬虫讲解以豆瓣电影Top250的信息爬取为主,所以通过学习如何爬取豆瓣电影信息为基础,在此基础上摸索爬取东方财富网的信息数据。(爬取豆瓣的代码,在视频中有非常完整的讲解)

一、下面首先爬取了东方财富网的Title       

网址:平安银行(000001)资金流向 _ 数据中心 _ 东方财富网 (eastmoney.com)

详细代码如下所示(包含部分代码解释) :

from bs4 import BeautifulSoup      # 网页解析,获取数据
import re       # 正则表达式,进行文字匹配
import urllib.request,urllib.error      # 制定URL,获取网页数据
import xlwt     # 进行excel操作

def main():
    baseurl = "http://data.eastmoney.com/zjlx/000001.html"
    # 1.爬取网页
    datalist = getDate(baseurl)

    # 2.逐一解析数据

    # 3.打印数据或保存到当前代码文件夹下    
    savepath = "东方财富名称.xlsx"
    saveData(datalist, savepath)

# 创建正则表达式的对象
findTitle = re.compile(r'<a href="(.*?)">(.*?)</a>')

# 爬取网页
def getDate(baseurl):
    datalist = []
    html = askURL(baseurl)  # 保存获取到的网页源码
    # 2.逐一解析数据       在网页的解析中,寻找到需要的信息代码块
    soup = BeautifulSoup(html,"html.parser")
    for item in soup.find_all('tr'):
        for it in item.find_all('td'):
            it = str(it)
            tirle = re.findall(findTitle, it)
            if len(tirle)!=0:
                datalist.append(tirle[0][1])
    # print(datalist)
    return datalist

# 得到指定一个URL的网页内容
def askURL(url):
    # 用户代理,表示告诉网页服务器,是何种类型的机器、浏览器
    # 模拟浏览器头部信息,向网页服务器发送信息
    headers = {
      
  • 8
    点赞
  • 73
    收藏
    觉得还不错? 一键收藏
  • 4
    评论
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值