PART 1 数据基本获取及相应知识(基操)

本文介绍了数据获取的各种方法,包括数据仓库(DW)与数据集市(DM),网页抓取工具,用户行为追踪(填写、埋点、日志),以及通过计算生成衍生数据。还提到了数据竞赛平台Kaggle和数据集资源如imageNet和OpenImages的重要性。
摘要由CSDN通过智能技术生成

PART 1 数据获取:

1.1数据获取手段-数据仓库(DW)

DW:全部事实的记录;

部分维度与数据的整理(数据集市-DM)

数据库->面向业务储存->OLTP(应用);

仓库->面向主题存储->OLAP(分析);

1.2数据获取手段-监测与抓取

1)直接解析网页,接口,文件的信息;

实操:

点开开发者工具,通过抓取工具,获取如下网页:

点击位置,就可获取相应的值-并为我所用;

(注意:像在网页上可以点击复制,一般都是可以抓取到并为我所用的数据)

文本数据可以直接用,若是图片(则需要修饰)

2)常用工具:

2)数据获取的手段-填写、埋点、日志

1.用户填写信息;

2.App活网页埋点(特定流程的信息记录点);

3,操作日志;

3)数据获取手段-计算:

通过已有数据计算生成衍生数据:

例如:统计报表某些项目:

4)数据学习网站:

数据竞赛网站(Kaggle&天池)

数据集网站(imageNet/Open Images)

各领域统计数据(统计局,政府机构,公司财务);

Kaggle网站主页:

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值