自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(16)
  • 收藏
  • 关注

转载 序列化和反序列化理解

一、序列化和反序列化的概念 把对象转换为字节序列的过程称为对象的序列化;把字节序列恢复为对象的过程称为对象的反序列化。 对象的序列化主要有两种用途: 1) 把对象的字节序列永久地保存到硬盘上,通常存放在一个文件中; 2) 在网络上传送对象的字节序列。 在很多应用中,需要对某些对象进行序列化,让它们离开内存空间,入住物理硬盘,以便长期保存。比如最常见

2017-10-14 14:08:32 213

转载 Hive行转列,列转行

Hive 行列转换 一、列转行 (对某列拆分,一列拆多行) 使用函数:lateral view explode(split(column, ',')) num eg: 如表:t_row_to_column_tmp 数据如下,对tag列进行拆分 SQL代码: select id,tag,tag_new   from t_row_to_column_tmp lateral

2017-10-14 13:10:59 771

转载 Hive编写UDF函数

HIVE 编写自定义函数UDF 一 新建JAVA项目 并添加 hive-exec-2.1.0.jar 和hadoop-common-2.7.3.jar      hive-exec-2.1.0.jar 在HIVE安装目录的lib目录下   hadoop-common-2.7.3.jar在hadoop的安装目录下的\share\hadoop\common    二 编一个一个

2017-10-10 17:34:31 1596

转载 hive的查询注意事项以及优化总结 .

hive的查询注意事项以及优化总结 . Hive是将符合SQL语法的字符串解析生成可以在Hadoop上执行的MapReduce的工具。使用Hive尽量按照分布式计算的一些特点来设计sql,和传统关系型数据库有区别, 所以需要去掉原有关系型数据库下开发的一些固有思维。 基本原则: 1:尽量尽早地过滤数据,减少每个阶段的数据量,对于分区表要加分区,同时只选择需要使用到的字段 sele

2017-10-10 17:09:42 202

转载 hive 常用运算

第一部分:关系运算 Hive支持的关系运算符 •常见的关系运算符 •等值比较: = •不等值比较: •小于比较: •小于等于比较: •大于比较: > •大于等于比较: >= •空值判断: IS NULL •非空判断: IS NOT NULL •LIKE比较: LIKE •JAVA的LIKE操作: RLIKE •REGEXP操作: REGEXP •等值比较:

2017-10-10 16:58:52 3287

转载 Spark算子使用示例

Spark算子使用示例 原创 2016年11月05日 18:02:21 4986 6 2

2017-10-10 12:33:58 239

转载 Hive常见内置函数及其使用

Hive常见内置函数及其使用 函数分类 HIVE CLI命令 显示当前会话有多少函数可用 SHOW FUNCTIONS; 显示函数的描写叙述信息 DESC FUNCTION concat; 显示函数的扩展描写叙述信息 DESC FUNCTION EXTENDED concat; 简单函数 函数的计算粒度为单条记录。 关系运算 数学运算 逻辑

2017-10-10 12:24:34 284

翻译 Flume的部署与测试

Flume的部署与测试 Flume是一个分布式、高可靠、高可用的日志收集系统。能够有效的收集、聚合、移动大量的日志。把各种类型的数据源采集汇总到各种类型的目的地,flume有一个口号:“我们不生产数据,我们是数据的搬运工。 官网文档: http://flume.apache.org/FlumeUserGuide.html 相关项目: 相关示例项目:Leek——简易版实时智能

2017-09-09 16:18:56 191

转载 日志收集之Flume

日志是系统数据的基石,对于系统的安全来说非常重要,它记录了系统每天发生的各种各样的事情,用户可以通过它来检查错误发生的原因,或者寻找受到攻击时攻击者留下的痕迹。日志主要的功能是审计和监测。它还可以实时地监测系统状态,监测和追踪侵入者。现在互联网上存在的日志组件各种各样,我们这里主要讲的是Flume。 Flume 发展历史     Cloudera 开发的分布式日志收集系统 Flume,

2017-09-09 16:12:00 302

原创 spark性能调优的本质、Spark资源使用原理和调优要点分析

首先:调优的本质             在大数据性能的调优,它的本质是硬件的调优!即基于 CPU(计算)、Memory(存储)、IO-Disk/ Network(数据交互) 基础上构建算法和性能调优!我们在计算的时候,数据肯定是存储在内存中的。磁盘IO怎么去处理和网络IO怎么去优化。 Spark 性能调优要点分析:     在大数据性能本质的思路上,我们应该需要在那些方面进

2017-09-06 13:37:49 232

原创 Hive、Hbase、mysql区别

Hive和HBase的区别 Hive是为了简化编写MapReduce程序而生的,使用MapReduce做过数据分析的人都知道,很多分析程序除业务逻辑不同外,程序流程基本一样。在这种情况下,就需要Hive这样的用戶编程接口。Hive本身不存储和计算数据,它完全依赖于HDFS和MapReduce,Hive中的表纯逻辑,就是些表的定义等,也就是表的元数据。使用SQL实现Hive是因为SQL大家都熟

2017-09-06 12:56:23 303

转载 java内部类详载

Java内部类详解   说起内部类这个词,想必很多人都不陌生,但是又会觉得不熟悉。原因是平时编写代码时可能用到的场景不多,用得最多的是在有事件监听的情况下,并且即使用到也很少去总结内部类的用法。今天我们就来一探究竟。下面是本文的目录大纲:   一.内部类基础   二.深入理解内部类   三.内部类的使用场景和好处   四.常见的与内部类相关的笔试面试题   若有不正之处,请多谅解并欢迎

2017-09-02 15:58:26 232

原创 MongoDB操作

在WIN下的安装以及部署:                   下载地址:                                          https://www.mongodb.org/dl/win32/x86_64-2008plus-ssl?_ga=2.246959428.1523391160.1499739380-486412057.1499739380      

2017-09-01 17:02:22 193

原创 Spark读取本地文件操作

import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaRDD; import org.apache.spark.api.java.JavaSparkContext; import org.apache.spark.api.java.function.Function; import org.apache.sp

2017-08-26 16:41:16 17204 2

原创 Jdbc连接Hive数据库

Jdbc连接Hive数据库通常会遇到:     报错:jdbc:hive2://master0.example.com:10000: Java.NET.ConnectException: Connection refused: connect 首先来看下maven的配置文件: 接着是hive-site.xml文件:    

2017-08-26 12:44:54 1326

转载 SSH框架——(二)四层结构:DAO,Service,Controller,View层

1. DAO层: 主要任务:做数据持久层的工作,负责与数据库进行联络的一些任务都封装在此。 DAO层的设计:首先是设计DAO层的接口,然后再Spring的配置文件中定义此接口的实现类,然后就可以在模块中调用此接口来进行数据业务的处理,而不用关心此接口的具体实现类是哪一个,显得结构非常清晰。DAO设计的总体规划需要和设计的表,和实现类之间一一对应。 DAO层所定义的接口里的方法,主要是增添改查

2017-08-19 22:08:44 2053

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除