- 博客(10)
- 收藏
- 关注
原创 scala
(全面理解数据增量和全量)主要在数据仓库中会涉及到的。为一个容器,可以保存数据对象的容器,称为集合。4) 解析 mysql binlog日志信息。val声明的变量不可修改,需要使用var。不关心主键唯一的形式(在数仓中没有主键)主键和业务主键:有id和order_id。3) 同步的时段在业务低峰期进行。2) 源表和目标表结构是否一致。目前同步方式:拖库拖表 和。文件里面的单词进行统计。将目标数据打平,变成一维。底层数据同步(ODS)
2023-05-09 17:40:08 82
原创 hive实战
with:按照不同的业务场景将代码进行拆分,可以理解为一个个的中间表(临时表)一般在数据仓库中:涉及到的表大多数都是宽表(字段很多)推荐:列裁剪,在select语句中只查询关注的字段。:将A和B的数据进行合并,但是数据不去重。合并的时候,要保证字段个数和字段顺序一致。:将A和B的数据进行合并,数据去重。目的:train + prior。2. 便于快速排查问题和定位。1. 提高代码的易读性。
2023-05-04 17:52:09 99
原创 Hive !!!
Hive是Hadoop大数据仓库Hive。在数据仓库中,SQL是最常用的分析工具。Hive本质是一个SQL解析引擎,将SQL语句转译成MR Job,达到快速开发的目的。hive的表为纯逻辑表,只是表的定义等,即表的元数据。本质为Hadoop的目录/文件,达到了元数据与数据存储分离的目的。hive可之间将结构化的数据文件映射为一张数据库表。hive元数据存在MySQL中,为什么没有存放在derby?* 只支持单线程操作,不支持并发,导致整个的执行效率偏低。
2023-05-04 17:35:07 82
原创 MapReduce
处理海量数据的分布式计算框架数据分布式存储作业调度机器间通信等复杂问题为何使用HDFS存储系统可靠(通过其它节点快速恢复)可扩展性并发处理注重数据处理的吞吐量MapReduce分而治之思想单点策略一个人数所有钞票,数出各种面值有多少张分治策略每个人分的一堆钞票,数出各种面值有多少张汇总,每个人负责统计一种面值MapReduce和HDFS采用Streaming框架允许让任何语言编写的map,reduce程序额能够在。
2023-05-04 14:21:00 33
原创 HDFS 1.0
Hadoop是一种分析和处理大数据的软件品和港台,是Apach的一个用Java语言实现的开源软件的框架,在大量计算机组成的集群中实现了对于海量的数据进行的分布式计算。
2023-03-28 13:06:09 253
原创 数分面试-机器学习
数据分析面试题——机器学习有监督学习线性回归普通最小二乘法运用的经典基本假设多重共线性是什么?如何解决多重共线性描述异方差性,如何克服异方差性什么是内生变量问题,如何解决简述有监督学习和无监督学习的差异简述参数模型和非参数模型的区别逻辑回归模型是分类模型还是回归模型能否用一句话概况什么是逻辑回归模型感知机模型和SVM模型的差别决策树模型的优缺点决策树算法计算信息增益的衡量标准有哪些决策树ID3、C4.5、CART三种算法之间的区别决策树如何降低过拟合的程度决策树算法在skle
2023-03-28 13:05:54 74
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人