一、案例一:从天天基金网,获取163407这支基金的历史净值。每次打开文件自动更新数据。
参考数据来源:http://fund.eastmoney.com/163407.html
1.爬取数据
- 首先,打开该网站,然后寻找163407这支基金的相关数据,可以看到网页就是显示这只基金的相关数据,见下图1-1所示:
图1-1 - 然后,我们点击“历史净值”,便可以得到图1-2:
图1-2 - 最下面有显示该基金“历史净值明细”的具体情况,我们需要爬取的就是这些数据。我们复制这个页面的网址(https://fundf10.eastmoney.com/jjjz_163407.html),然后对这些数据进行爬取,爬取数据的步骤是:在excel中选择“数据”选卡下的“获取数据”中的“自其他源”中的“自网站”(详细步骤见Excel——如何利用excel的功能爬取网页表格类型的数据以及自动更新-CSDN博客),结果如下图1-3所示:
图1-3 - 可以看到,下面有两张表格,我们分别点击Table 0 和Table 1可以看到Table 1是我们所需要的数据(如果不清楚的可以选择Web视图进行查看是否我们所需要的数据),数据见下图1-4
图1-4 - 我们把Table 1 的数据加载到现有的excel表格中,结果见下图1-5:
图1-5
2.对数据进行清洗
(1)修改表头的标题
- 特别注意一点的就是:有时候爬取得到的表格数据表头的标签可能没办法爬取下来,所以爬取得到的数据的表头就会变成Column 1 、Column 2等等,那么要对表头的标签进行修改的话,直接点击excel当中的单元格是无法进行修改的,在这里我们就要使用一个插件(office 2016及以上版本内置此插件,2013以及一下版本需要另外安装)。
- 我们点击一下这个表格,然后在上方的选项卡中点击“查询”下的“编辑”,就会弹出一个编辑器,结果如下图2-1所示:
图2-1
此编辑器是Power Query编辑器,右边的Table 1是这个表格的名称,如果我们有很多的表格的 话,为了区分要对其名称进行修改,双击Table 1 即可进行修改,这里修改为163407。 同样修 改表头的标题也是双击便可以进行修改,修改完之后,点击该页面左上角“关闭并上载”就修改 完毕了。
(2) 筛选出日增长率为正的数据
- 点击编辑器中的“日增长率”这一列右边的小三角,再点击数字筛选器中的大于等于,就会得到下图2-2的页面:
图2-2 - 在大于或等于的框右边中输入0,然后点击确认就可以筛选得到日增长率为正的数据,见图2-3、图2-4所示:
图2-3 图2-4
(3)删除多余的数据,保留所需要的数据
-
假如我们只需要“净值日期”、“单位净值”、“累计净值”和“日增长率”这些数据
-
我们先点击“申购状态”这列数据,然后按住shift键,再依次点击“赎回状态”、“分红配送”,然后点击上面“删除列”,见图2-5,得到的结果见图2-6:
图2-5
![](https://img-blog.csdnimg.cn/direct/a1968c118c834eaeafe9e3a1dbc27783.png)
(4)对数据进行排序
- 假如要对“单位净值”的数据进行排序,那么点击“单位净值”旁边的小三角形就可以选择是按升序排序或者是降序排序,见下图2-7所示:
图2-7 - 若是按升序排序,结果就如图2-8所示:
图2-8 - 最后,记得点击左上角的“关闭并上载” ,得到的结果如图2-9所示:
图2-9
3.设置每次打开文件时自动更新
- 点击表格,然后选择“数据”选卡下的“全部刷新”中的“连接属性” ,结果见下图3-1所示:
图3-1 - 然后我们勾选“打开文件时刷新数据”,再点击确认即可
注意: 本文中的案例以及Excel的使用方法均来自哔哩哔哩中的珞珈AI办公up主!!!
如若有侵权,请联系删除。
本文是作者个人学习后的总结,未经作者授权,禁止转载,谢谢配合。
珞珈AI办公的个人空间-珞珈AI办公个人主页-哔哩哔哩视频 (bilibili.com)https://space.bilibili.com/308552985