- 博客(15)
- 资源 (52)
- 问答 (6)
- 收藏
- 关注
原创 Mybatis 中$与#的区别
1 #是将传入的值当做字符串的形式,eg:select id,name,age from student where id =#{id}当前端把id值1,传入到后台的时候,就相当于select id,name,age from student where id ='1' -- id='1'2 $是将传入的数据直接显示生成sql语句,eg:select id,name,...
2019-02-28 18:26:57 207
转载 K-Means(聚类)
说到聚类,应先理解聚类和分类的区别,很多业务人员在日常分析时候不是很严谨,混为一谈,其实二者有本质的区别。分类:分类其实是从特定的数据中挖掘模式,作出判断的过程。比如Gmail邮箱里有垃圾邮件分类器,一开始的时候可能什么都不过滤,在日常使用过程中,我人工对于每一封邮件点选“垃圾”或“不是垃圾”,过一段时间,Gmail就体现出一定的智能,能够自动过滤掉一些垃圾邮件了。这是因为在点选的过程中...
2019-02-28 11:26:02 148966 61
转载 mrunit --- mapereduce测试框架
MRUnit的那些坑1. Maven无法成功导入org.apache.mrunit提示:Unresolved dependency:’org.apache.mrunit:mrunit:jar….’原因:没有确定版本解决方法:在<dependency></dependency>中间的语句块加上一行<classifier>hadoop2&...
2019-02-26 17:43:12 402
转载 Hbase命令
4.1 命令的进退1、hbase提供了一个shell的终端给用户交互hbase shell 2、如果退出执行quit命令4.2 命令名称 命令表达式 查看hbase状态 status 创建表 create '表名','列族名1','列族名2','列族名N' 查看所有表 list 描述表 describe '表名' 判断表...
2019-02-25 10:03:27 247
原创 Hbase常用命令
01、启动/停止服务(在Hbase根目录下执行)bin/start-hbase.shbin/stop-hbase.sh02、进入HBase客户端命令操作界面(在Hbase根目录下执行)bin/hbase shell03、查看帮助命令help04、查看当前数据库中有哪些表list05、创建一张表create 'student','info'06...
2019-02-22 15:10:28 1537
转载 Hive性能优化
1、介绍 首先,我们来看看Hadoop的计算框架特性,在此特性下会衍生哪些问题? 数据量大不是问题,数据倾斜是个问题。 jobs数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次汇总,产生十几个jobs,耗时很长。原因是map reduce作业初始化的时间是比较长的。 sum,count,max,min等UDAF,不怕数据倾斜问题,hadoop...
2019-02-15 09:20:26 302
转载 hive配置角度调优
下面的内容是我们每次在hive命令行执行SQL时都会打印出来的内容:In order to change the average load for a reducer (in bytes): set hive.exec.reducers.bytes.per.reducer=<number>In order to limit the maximum number of red...
2019-02-14 18:13:44 413
转载 Hive常用函数大全(二)(窗口函数、分析函数、增强group)
窗口函数与分析函数应用场景: (1)用于分区排序 (2)动态Group By (3)Top N (4)累计计算 (5)层次查询窗口函数FIRST_VALUE:取分组内排序后,截止到当前行,第一个值 LAST_VALUE: 取分组内排序后,截止到当前行,最后一个值 LEAD(col,n,DEFAULT) :用于统计窗口内往下第n行值。第一个参数为列名,第二个参数为往下第n行(可...
2019-02-14 14:52:58 282
转载 Hive常用函数大全(一)(关系/数学/逻辑/数值/日期/条件/字符串/集合统计/复杂类型)
测试数据 data.txt 文件zhangsa dfsadsa323 new 67.1 2 lisi 543gfd old 43.32 1 wanger 65ghf new 88.88 | 3 liiu fdsfagwe new 66.0 1 qibaqi fds ...
2019-02-14 14:33:07 392
转载 Hive 元数据表结构详解
元数据是基础,这篇文章值得一读本文介绍Hive元数据库中一些重要的表结构及用途,方便Impala、SparkSQL、Hive等组件访问元数据库的理解。 1、存储Hive版本的元数据表(VERSION)VERSION :该表比较简单,但很重要。 VER_ID SCHEMA_VERSION VERSION_COMMENT ...
2019-02-14 11:48:33 560
原创 数据仓库命名规范
数据模型是数据管理的分析工具和交流的有力手段;同时,还能够很好地保证数据的一致性,是实现商务智能(Business Intelligence)的重要基础。因此建立、管理一个企业级的数据模型,应该遵循标准的命名和设计规范ODS层表名前缀为ODS_应用系统名(缩写)_数据表名 。数据表名称必须以有特征含义的单词或缩写组成,中间可以用“_”分割,例如:ODS_FUN_CUSTOME...
2019-02-12 14:20:40 3242
原创 星型模型 vs 雪花型模型
一、概述在多维分析的商业智能解决方案中,根据事实表和维度表的关系,又可将常见的模型分为星型模型和雪花型模型。在设计逻辑型数据的模型的时候,就应考虑数据是按照星型模型还是雪花型模型进行组织。当所有维表都直接连接到“ 事实表”上时,整个图解就像星星一样,故将该模型称为星型模型,如图 1 。星型架构是一种非正规化的结构,多维数据集的每一个维度都直接与事实表相连接,不存在渐变维度,所以数据有一...
2019-02-12 14:13:23 334
转载 缓慢变化维
数据仓库 DataWarehouse(DW) 中的事实表总是在变化中,通常是新的业务数据不断装载入DW。事实表数据的增加是正常现象,也无需特别处理。但很多时候维度表的数据也会发生变化,且维度表的数据变化会导致维度表和事实表的关系发生变化。因此对于维度变化,该如何设计维度表,是本文要讨论的问题。 例如一个订单事实表和一个客户维度表,每个订单有一个对应的客户。在今年5月17日...
2019-02-12 11:50:45 910
转载 拉链表、增量表、全量表
1、概念解析(1)存量:系统在某一时点时的所保有的数量;(2)流量:是指在某一段时间内流入/出系统的数量(3)增量:则是指在某一段时间内系统中保有数量的变化(4)增量 = 流入量 - 流出量(5)本期期末存量 = 上期期末存量 + 本期内增量2、拉链表:注意事项(1)记录一个事物从开始,一直到当前状态的所有变化的信息;(2)拉链表每次上报的都是历史记录的最终状态,是记录在当前...
2019-02-12 10:58:01 4939
Mybatis日志中的SQL解析工具(网页版).html
2021-04-23
SVNDrv驱动文件.zip
2021-04-20
SVNDrv.sys
2020-08-28
java调用天气预报webservice
2018-04-24
java微信公众号支付
2018-01-27
json解析jar包
2017-12-13
java开发常见api
2017-11-20
feign超时熔断时间
2021-04-21
spark的dataframe究竟知不知道每列的名称和类型各是什么?
2019-01-15
电商支付如何实现呢?
2017-12-07
JSP页面的 src 属性、 action 属性是属于转发还是重定向?
2017-12-04
提交订单,后台有提示信息
2017-11-29
裂变红包是如何实现的
2017-11-29
TA创建的收藏夹 TA关注的收藏夹
TA关注的人