【数据分析与数据挖掘】二、数据获取方法汇总

目录

1.数据获取手段

(1)数据仓库

(2)监测与抓取

(3)填写、埋点、日志

(4)计算

2.好用的数据学习网站

1.数据获取手段

数据获取手段有:数据仓库,监测与抓取,填写、日志、埋点,计算等。

(1)数据仓库

如果一个网站是卖书的,建立的数据库存储书的信息,用户的信息等,当网站扩展到一定规模时,遇到一个很重要的方向问题,该卖哪些书,该着重面向什么人群推荐什么书,这时仅仅靠数据库是不够的,于是需要把每一次用户进行数据交互时,数据库的变动的信息都记录下来,例如用户在几时几分买了什么书,浏览了什么网页,如实记录并长期保留。这就需要数据仓库了

  • 将所有业务数据经汇总处理,构成数据仓库(DW)

    • 全部事件的记录;

    • 部分维度与数据的整理(数据集市-DM);

  • 数据库与数据仓库

    • 数据库面向业务存储,仓库面向主题存储(主题:较高层次上对分析对象数据的一个完整并且一直的描述);

      面向业务需要保证高并发,快速读写,数据结构精简等,主要为用户提供优质的用户体验;

      数据仓库面向主题存储;

    • 数据库针对应用(OLTP-online transaction processing),数据仓库针对分析(OLAP-online analysis processing);

    • 数据库组织规范,仓库可能冗余,相对变化大,数据量大;

(2)监测与抓取

监测是通过检测设备和算法直接获取数据,如传感器网络;

抓取是爬取网站上的内容;

(3)填写、埋点、日志

  • 填写指的是用户填写的信息,如用户注册时的信息;

  • 埋点:在APP或者网页应用中,针对特定的流程,收集一定的信息用来根据APP或者网页用户使用的情况,以便用来进一步优化产品,运营支持;

  • 操作日志,日志是以文件形式存在的;

(4)计算

有些数据不能直接计算,需要通过已有数据计算生成衍生数据,例如统计报表某些项目。

2.好用的数据学习网站

(1)数据竞赛网站(Kaggle&天池);

(2)数据集网站(ImageNet/open Images(google出的));

(3)各领域统计数据(统计局、政府机构、公司财报等);

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值