Excel——利用excel爬取网页中的表格类型的数据以及对数据进行初步的清洗（1）

本文链接：https://blog.csdn.net/qinftian/article/details/136284226

本文介绍了如何通过爬虫技术从天天基金网获取163407基金的历史净值数据，包括数据抓取、Excel中的数据清洗（如修改表头、筛选和排序）、以及设置Excel连接属性以实现数据自动更新的过程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、案例一：从天天基金网，获取163407这支基金的历史净值。每次打开文件自动更新数据。

参考数据来源：http://fund.eastmoney.com/163407.html

首先，打开该网站，然后寻找163407这支基金的相关数据，可以看到网页就是显示这只基金的相关数据，见下图1-1所示：

图1-1
然后，我们点击“历史净值”，便可以得到图1-2：

图1-2
最下面有显示该基金“历史净值明细”的具体情况，我们需要爬取的就是这些数据。我们复制这个页面的网址（https://fundf10.eastmoney.com/jjjz_163407.html），然后对这些数据进行爬取，爬取数据的步骤是：在excel中选择“数据”选卡下的“获取数据”中的“自其他源”中的“自网站”（详细步骤见Excel——如何利用excel的功能爬取网页表格类型的数据以及自动更新-CSDN博客），结果如下图1-3所示：

图1-3
可以看到，下面有两张表格，我们分别点击Table 0 和Table 1可以看到Table 1是我们所需要的数据（如果不清楚的可以选择Web视图进行查看是否我们所需要的数据），数据见下图1-4

图1-4
我们把Table 1 的数据加载到现有的excel表格中，结果见下图1-5：

图1-5

特别注意一点的就是：有时候爬取得到的表格数据表头的标签可能没办法爬取下来，所以爬取得到的数据的表头就会变成Column 1 、Column 2等等，那么要对表头的标签进行修改的话，直接点击excel当中的单元格是无法进行修改的，在这里我们就要使用一个插件（office 2016及以上版本内置此插件，2013以及一下版本需要另外安装）。
我们点击一下这个表格，然后在上方的选项卡中点击“查询”下的“编辑”，就会弹出一个编辑器，结果如下图2-1所示：

图2-1