利用inner join核对两张表的数据 1、inner join 浅尝提到比对两张表的数据是否完全相同,很容易想到用inner join关联两张表去比较。Inner join的基本语法是:select collist from t1 inner join t2 on condition1 and condition2…;简单理解就是对于t1表中的每一行,将它与t2表的每一行进行比较,检查他们是否满足关联条件,当满足关联条件时,inner join 将返回由t1和t2表中的列组成的新行,当无法满足关联条件时,将返回一个空结果。下面举个例子:
数仓建设之指标体系搭建 一、 什么是指标体系1**. 指标体系定义**指标体系是将零散单点的具有相互联系的指标,系统化的组织起来,通过单点看全局,通过全局解决单点的问题。它主要由指标和体系两部分组成。指标是指将业务单元细分后量化的度量值,它使得业务目标可描述、可度量、可拆解,它是业务和数据的结合,是统计的基础,也是量化效果的重要依据。指标主要分为结果型和过程型:结果型指标:用于衡量用户发生某个动作后所产生的结果,通常是延后知道的,很难进行干预。结果型指标更多的是监控数据异常,或者是监控某个场景下用户需求是否被满足过程型
数据仓库建设思路 数据仓库的实现方通常有 自顶向下、自底向上和两者结合进行的这样三种实现方案。自顶向下实现:自顶向下的实现需要在项目开始时完成更多计划和设计工作,这就需要涉及参与数据仓库实现的每个工作组、部门或业务线中的人员。要使 用的数据源、安全性、数据结构、数据质量、数据标准和整个数据模型的有关决策一般需要在真正的实现开始之前就完成。自底向上实现:自底向上的实现包含数据仓库的规划和设计,无需等待安置好更大业务范围的数据仓库设计。这并不意味着不会开发更大业务范围的数据仓 库设计;随着初始数据仓库实现的扩展,将逐渐增加
Hive SQL底层执行过程详细剖析 看到一篇干货,copy一下本文结构采用宏观着眼,微观入手,从整体到细节的方式剖析 Hive SQL 底层原理。第一节先介绍 Hive 底层的整体执行流程,然后第二节介绍执行流程中的 SQL 编译成 MapReduce 的过程,第三节剖析 SQL 编译成 MapReduce 的具体实现原理。**Hive**Hive是什么?Hive 是数据仓库工具,再具体点就是一个 SQL 解析引擎,因为它即不负责存储数据,也不负责计算数据,只负责解析 SQL,记录元数据。Hive直接访问存储在 HDFS 中
Hive 动态分区 hive可以通过分区缩小数据集,避免全表扫描,提高查询速度和性能的。Hive的分区主要有两种:静态分区和 动态分区Hive静态分区Hive的静态分区,实际上就是手动指定分区的值为静态值,这种对于小批量的分区插入比较友好。在插入语句中如果partition字段指定了具体的值 ,例如:partition(year=“2020”)这样的分区就叫静态分区了,是不是很简单?Hive动态分区Hive的动态分区,其实就是把静态分区中的分区值设置为动态的值insert overwri...
07 数据分析- 决策性分析 决策性分析通过数据分析、挖掘确定事件的最佳执行方案,以增加收入、降低成本、提升效率、控制风险的目的决策大决策决策频率低,单次决策影响大,价值高目标:提供决策支持,帮助决策人员做出最佳决策小决策决策频率高,单次决策影响小,总价值高目标:根据决策目标,通过决策系统给出最佳决策结果决策支持的分析步骤(大决策)1. 现状是什么 - 描述性分析2. 现状存在哪些问题 - 诊断性分析...
06数据分析 - 预测性分析 预测性分析分类 1. 决策树算法 计算步骤: 选择对象的一个特征,并根据这一特征对训练集进行分类 计算某特征分类后分类结果的混乱程度 (使用基尼系数,系数越小越接近根结点) :大数据项目实战电商推荐系统-04_电商推荐系统_项目系统设计(下)... 本教程为官方授权出品 如今大数据已经成了各大互联网公司工作的重点方向,而推荐系统可以说就是大数据最好的落地应用之一,已经为企业带来了可观的用户流量和销售额。特别是对于电商,好的推荐系统可以大大提升电商企业的销售业绩。国内外的知名电商,如亚马逊、淘宝、京东等公司,都在推荐系统领域投入了大量研发力量,也在大量招收相关的专业人才。量身定制打造的电商推荐系统项目,就是以经过修改的中文亚马逊...
学习笔记(01):大数据项目实战电商推荐系统-03_电商推荐系统_项目系统设计(中)... 本教程为官方授权出品 如今大数据已经成了各大互联网公司工作的重点方向,而推荐系统可以说就是大数据最好的落地应用之一,已经为企业带来了可观的用户流量和销售额。特别是对于电商,好的推荐系统可以大大提升电商企业的销售业绩。国内外的知名电商,如亚马逊、淘宝、京东等公司,都在推荐系统领域投入了大量研发力量,也在大量招收相关的专业人才。量身定制打造的电商推荐系统项目,就是以经过修改的中文亚马逊...
Sqoop 日期字段导出报错 想用sqoop 把导入到hive的基础表导出到另一个数据库。 Sqoop 导出数据时报如下错误:java.lang.RuntimeException: Can't parse input data: '2018-07-18' at ........org.apache.sqoop.mapreduce.TextExportMapper.map(TextExportMapper.java...
python数组(list) 求交集、并集、差集 两个集合: a = [1,2,3,4,5,6] b = [3,5,7]1.求交集 方式一: intersection = [i for i in a if i in b] intersection = list(set(a).intersection(set(b))) 结果: [3, 5]2.求并集 union= list(set(a).u...
under replicated blocks 解决办法 ambari 监控页面显示under replicated blocks 显示红色。查了一下发现可以用hadoop fs 的 setrep命令解决这个问题。下面是运行 hadoop fs -help 时,对这个命令的解释-setrep [-R] [-w] <rep> <path> ... : Set the replication level of a fi...
mysql找回root 密码 一台测试服务器是另一个同事装的Mysql,不记得root密码了,所以查了一下如何找回root密码, 实际上是免密登录后修改root密码.操作步骤如下:停止mysql, 我们机器是centos7 systemctl stop mysqld我们的是编译安装的, 执行下面命令: mysqld_safe –skip-grant-tables –user=mysql...