数据仓库
日志采集系统: 是采集用户的点击行为,操作记录。用于数据分析,推荐用户画像等工作; 数据量相当大。
业务系统数据库: 是存储的一些数据,比如价格等,一般使用mysql等数据库。需要实时的查询。
数据仓库概念:英文名称为Data Warehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它出于分析性报告和决策支持目的而创建。 为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。
数据
uv: 在网站浏览的人数;
pv: 浏览页面的次数;
数据存储: mysql, hdfs, hbase, redis,mongodb
数据传输:flume, kafka, sqoop, Logstash, DataX
sqoop: 将数据导入到mysql。
Logstash: ELK中的。
DataX:
数据计算:Hive, Tez, spark, flink, strom
Tez是基于内存的;Hive会慢点; strom逐渐的没落。
数据查询: persto, druid, impala, kylin,
系统数据流程设计
业务交互数据:业务流程中产生的登陆,订单,用户商品,支付等相关的数据,通常存在db中,比如mysql,oracle中。
埋点用户行为数据:用户在使用产品过程中,与客户产品交互过程中产生的数据,比如页面浏览,点击,停留,评论,点赞,收藏等。