前言:最近项目上有爬数据需求,好在只需要公开信息,用PBI就可以搞定,故整理了一下爬数步骤,查阅了简书和知乎大佬的文章发现还是会踩坑,这里整理一版详细的记录下来方便理解。
- 爬数方式:
- 爬单页数据并做简单清洗——创建自定义函数——高级编辑器修改函数代码增加参数——生成参数表——求参数笛卡尔积——自定义列引用函数——批量爬取网页数据
- 目标网址:https://money.finance.sina.com.cn/corp/go.php/vFD_BalanceSheet/stockid/000002/ctrl/2012/displaytype/4.phtml
一、先介绍第一种方式:
1. 获取数据——Web
2. 基本——输入网址
3. 弹出的界面中发现很多表,逐个查看可以选出需要的表17,这里咱们选【转换数据】。注意,这里选择【加载】和【转换数据】均可,【加载】是指将表17加载到PBI桌面,【转换数据】是指将数据加载到Power Query编辑器。
4. 为避免后面批量采数出现重复标题行,选择将第一行用做标题