nls1014-CSDN博客

转载序列化和反序列化理解

一、序列化和反序列化的概念把对象转换为字节序列的过程称为对象的序列化；把字节序列恢复为对象的过程称为对象的反序列化。对象的序列化主要有两种用途：1）把对象的字节序列永久地保存到硬盘上，通常存放在一个文件中；2）在网络上传送对象的字节序列。在很多应用中，需要对某些对象进行序列化，让它们离开内存空间，入住物理硬盘，以便长期保存。比如最常见

2017-10-14 14:08:32 249

转载 Hive行转列，列转行

Hive 行列转换一、列转行 (对某列拆分，一列拆多行)使用函数：lateral view explode(split(column, ',')) numeg: 如表：t_row_to_column_tmp 数据如下，对tag列进行拆分SQL代码：select id,tag,tag_new from t_row_to_column_tmplateral

2017-10-14 13:10:59 816

转载 Hive编写UDF函数

HIVE 编写自定义函数UDF一新建JAVA项目并添加 hive-exec-2.1.0.jar 和hadoop-common-2.7.3.jar　　　　hive-exec-2.1.0.jar 在HIVE安装目录的lib目录下　　hadoop-common-2.7.3.jar在hadoop的安装目录下的\share\hadoop\common 二编一个一个

2017-10-10 17:34:31 1636

转载 hive的查询注意事项以及优化总结 .

hive的查询注意事项以及优化总结 .Hive是将符合SQL语法的字符串解析生成可以在Hadoop上执行的MapReduce的工具。使用Hive尽量按照分布式计算的一些特点来设计sql，和传统关系型数据库有区别，所以需要去掉原有关系型数据库下开发的一些固有思维。基本原则：1：尽量尽早地过滤数据，减少每个阶段的数据量,对于分区表要加分区，同时只选择需要使用到的字段sele

2017-10-10 17:09:42 247

转载 hive 常用运算

第一部分：关系运算Hive支持的关系运算符•常见的关系运算符•等值比较: =•不等值比较: •小于比较: •小于等于比较: •大于比较: >•大于等于比较: >=•空值判断: IS NULL•非空判断: IS NOT NULL•LIKE比较: LIKE•JAVA的LIKE操作: RLIKE•REGEXP操作: REGEXP•等值比较:

2017-10-10 16:58:52 3358

转载 Spark算子使用示例

Spark算子使用示例原创 2016年11月05日 18:02:214986 6 2

2017-10-10 12:33:58 287

转载 Hive常见内置函数及其使用

Hive常见内置函数及其使用函数分类HIVE CLI命令显示当前会话有多少函数可用 SHOW FUNCTIONS;显示函数的描写叙述信息 DESC FUNCTION concat;显示函数的扩展描写叙述信息 DESC FUNCTION EXTENDED concat;简单函数函数的计算粒度为单条记录。关系运算数学运算逻辑

2017-10-10 12:24:34 325

翻译 Flume的部署与测试

Flume的部署与测试Flume是一个分布式、高可靠、高可用的日志收集系统。能够有效的收集、聚合、移动大量的日志。把各种类型的数据源采集汇总到各种类型的目的地，flume有一个口号：“我们不生产数据，我们是数据的搬运工。官网文档： http://flume.apache.org/FlumeUserGuide.html相关项目：相关示例项目：Leek——简易版实时智能

2017-09-09 16:18:56 224

转载日志收集之Flume

日志是系统数据的基石，对于系统的安全来说非常重要，它记录了系统每天发生的各种各样的事情，用户可以通过它来检查错误发生的原因，或者寻找受到攻击时攻击者留下的痕迹。日志主要的功能是审计和监测。它还可以实时地监测系统状态，监测和追踪侵入者。现在互联网上存在的日志组件各种各样，我们这里主要讲的是Flume。Flume 发展历史 Cloudera 开发的分布式日志收集系统 Flume，

2017-09-09 16:12:00 354

原创 spark性能调优的本质、Spark资源使用原理和调优要点分析

首先：调优的本质在大数据性能的调优，它的本质是硬件的调优！即基于 CPU(计算)、Memory(存储)、IO-Disk/ Network(数据交互) 基础上构建算法和性能调优！我们在计算的时候，数据肯定是存储在内存中的。磁盘IO怎么去处理和网络IO怎么去优化。Spark 性能调优要点分析：在大数据性能本质的思路上，我们应该需要在那些方面进

2017-09-06 13:37:49 265

原创 Hive、Hbase、mysql区别

Hive和HBase的区别Hive是为了简化编写MapReduce程序而生的，使用MapReduce做过数据分析的人都知道，很多分析程序除业务逻辑不同外，程序流程基本一样。在这种情况下，就需要Hive这样的用戶编程接口。Hive本身不存储和计算数据，它完全依赖于HDFS和MapReduce，Hive中的表纯逻辑，就是些表的定义等，也就是表的元数据。使用SQL实现Hive是因为SQL大家都熟

2017-09-06 12:56:23 338

转载 java内部类详载

Java内部类详解　　说起内部类这个词，想必很多人都不陌生，但是又会觉得不熟悉。原因是平时编写代码时可能用到的场景不多，用得最多的是在有事件监听的情况下，并且即使用到也很少去总结内部类的用法。今天我们就来一探究竟。下面是本文的目录大纲：　　一.内部类基础　　二.深入理解内部类　　三.内部类的使用场景和好处　　四.常见的与内部类相关的笔试面试题　　若有不正之处，请多谅解并欢迎

2017-09-02 15:58:26 268

原创 MongoDB操作

在WIN下的安装以及部署：下载地址： https://www.mongodb.org/dl/win32/x86_64-2008plus-ssl?_ga=2.246959428.1523391160.1499739380-486412057.1499739380

2017-09-01 17:02:22 227

原创 Spark读取本地文件操作

import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.api.java.JavaSparkContext;import org.apache.spark.api.java.function.Function;import org.apache.sp

2017-08-26 16:41:16 17300 1

原创 Jdbc连接Hive数据库

Jdbc连接Hive数据库通常会遇到：报错：jdbc:hive2://master0.example.com:10000: Java.NET.ConnectException: Connection refused: connect 首先来看下maven的配置文件：接着是hive-site.xml文件：

2017-08-26 12:44:54 1391

转载 SSH框架——（二）四层结构：DAO，Service，Controller，View层

1. DAO层：主要任务：做数据持久层的工作，负责与数据库进行联络的一些任务都封装在此。DAO层的设计：首先是设计DAO层的接口，然后再Spring的配置文件中定义此接口的实现类，然后就可以在模块中调用此接口来进行数据业务的处理，而不用关心此接口的具体实现类是哪一个，显得结构非常清晰。DAO设计的总体规划需要和设计的表，和实现类之间一一对应。DAO层所定义的接口里的方法，主要是增添改查

2017-08-19 22:08:44 2126