Excel——利用excel爬取网页中的表格类型的数据以及对数据进行初步的清洗(1)

本文介绍了如何通过爬虫技术从天天基金网获取163407基金的历史净值数据,包括数据抓取、Excel中的数据清洗(如修改表头、筛选和排序)、以及设置Excel连接属性以实现数据自动更新的过程。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一、案例一:从天天基金网,获取163407这支基金的历史净值。每次打开文件自动更新数据。

参考数据来源:http://fund.eastmoney.com/163407.html

1.爬取数据

  • 首先,打开该网站,然后寻找163407这支基金的相关数据,可以看到网页就是显示这只基金的相关数据,见下图1-1所示:
    图1-1
  • 然后,我们点击“历史净值”,便可以得到图1-2:
    图1-2
  • 最下面有显示该基金“历史净值明细”的具体情况,我们需要爬取的就是这些数据。我们复制这个页面的网址(https://fundf10.eastmoney.com/jjjz_163407.html),然后对这些数据进行爬取,爬取数据的步骤是:在excel中选择“数据”选卡下的“获取数据”中的“自其他源”中的“自网站”(详细步骤见Excel——如何利用excel的功能爬取网页表格类型的数据以及自动更新-CSDN博客),结果如下图1-3所示:
    图1-3
  •  可以看到,下面有两张表格,我们分别点击Table 0 和Table 1可以看到Table 1是我们所需要的数据(如果不清楚的可以选择Web视图进行查看是否我们所需要的数据),数据见下图1-4
    图1-4
  • 我们把Table 1 的数据加载到现有的excel表格中,结果见下图1-5:
    图1-5

 2.对数据进行清洗

(1)修改表头的标题

  • 特别注意一点的就是:有时候爬取得到的表格数据表头的标签可能没办法爬取下来,所以爬取得到的数据的表头就会变成Column 1 、Column 2等等,那么要对表头的标签进行修改的话,直接点击excel当中的单元格是无法进行修改的,在这里我们就要使用一个插件(office 2016及以上版本内置此插件,2013以及一下版本需要另外安装)。
  • 我们点击一下这个表格,然后在上方的选项卡中点击“查询”下的“编辑”,就会弹出一个编辑器,结果如下图2-1所示:
    图2-1

       此编辑器是Power Query编辑器,右边的Table 1是这个表格的名称,如果我们有很多的表格的        话,为了区分要对其名称进行修改,双击Table 1 即可进行修改,这里修改为163407。 同样修        改表头的标题也是双击便可以进行修改,修改完之后,点击该页面左上角“关闭并上载”就修改        完毕了。

(2) 筛选出日增长率为正的数据

  • 点击编辑器中的“日增长率”这一列右边的小三角,再点击数字筛选器中的大于等于,就会得到下图2-2的页面:
    图2-2
  • 在大于或等于的框右边中输入0,然后点击确认就可以筛选得到日增长率为正的数据,见图2-3、图2-4所示:
    图2-3
     
    图2-4

(3)删除多余的数据,保留所需要的数据

  • 假如我们只需要“净值日期”、“单位净值”、“累计净值”和“日增长率”这些数据

  •  我们先点击“申购状态”这列数据,然后按住shift键,再依次点击“赎回状态”、“分红配送”,然后点击上面“删除列”,见图2-5,得到的结果见图2-6:

    图2-5
图2-6

 (4)对数据进行排序

  • 假如要对“单位净值”的数据进行排序,那么点击“单位净值”旁边的小三角形就可以选择是按升序排序或者是降序排序,见下图2-7所示:
    图2-7
  • 若是按升序排序,结果就如图2-8所示:
    图2-8
  • 最后,记得点击左上角的“关闭并上载” ,得到的结果如图2-9所示:
    图2-9

 3.设置每次打开文件时自动更新 

  • 点击表格,然后选择“数据”选卡下的“全部刷新”中的“连接属性” ,结果见下图3-1所示:
    图3-1
  • 然后我们勾选“打开文件时刷新数据”,再点击确认即可 

注意: 本文中的案例以及Excel的使用方法均来自哔哩哔哩中的珞珈AI办公up主!!!

            如若有侵权,请联系删除。

            本文是作者个人学习后的总结,未经作者授权,禁止转载,谢谢配合。

             珞珈AI办公的个人空间-珞珈AI办公个人主页-哔哩哔哩视频 (bilibili.com)icon-default.png?t=N7T8https://space.bilibili.com/308552985

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Cherry晴

创作不易,多多包涵~

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值