获取单个页面数据
- 获取数据–> web -> 基本。url: https://search.jd.com/Search?keyword=手机&wq=1手机&page=&s=51&click=0

- 在导航器中,通过表的内容来识别目标表,转换数据
- 将目标列进行rename,无用列删除

获取多个页面数据
- 创建页码函数:主页–>参数管理–>新建参数

- 插入页码参数
- 打开数据获取设置:双击“单页面获取数据”应用的步骤对应的“源”

- 在 web数据获取页码选择“高级”,设置页码参数

- 打开数据获取设置:双击“单页面获取数据”应用的步骤对应的“源”
- 创建自定义函数:初始数据,右击 创建函数


- 创建页码列表:传递给url的页码列表
- 新建“空查询”:主页–>新建源–>空查询
- 生成列表
- 公示栏输入:
= List.Numbers(1,N,1):页码从1到N,逐一递增

- 公示栏输入:
- 列表转换为表:右击新建的“列表”–>到表–>弹出框直接“确定”


- rename:rename查询名和列名,以便于识别

- 页码table的列类型转换为“文本”:选中“PageList”,转换–>任意类型,选择“文本”


- 调用自定义函数
- 选中“页码列表”,添加列–>调用自定义函数
- 忽略“隐私级别”
- 结果:每个
table对应一页数据


- 展开函数:点击“扩展列”展开全部数据


- 数据清洗
- 删除
PageList 价格转换为整数评论数替换值将汉字去掉,剩余的转换为小数- 整体去重:选中所有的列,右击,选中“删除重复项目”
- 删除
- 新数据命名:属性–命名,命名

- 新数据加载到报表视图:文件–>关闭并应用
简单可视化
- 衍生列

- 可视化


京东手机数据爬取教程
本文详细介绍如何使用网页抓取技术从京东网站获取手机产品数据,包括单页面数据抓取、多页面数据抓取、数据清洗及可视化展示的全过程。
1810

被折叠的 条评论
为什么被折叠?



