2017年09月_丹江怒潮

转载 java学习系列4（类加载机制及反射）

一、Java类加载机制1．概述 Class文件由类装载器装载后，在JVM中将形成一份描述Class结构的元信息对象，通过该元信息对象可以获知Class的结构信息：如构造函数，属性和方法等，Java允许用户借由这个Class相关的元信息对象间接调用Class对象的功能。虚拟机把描述类的数据从class文件加载到内存，并对数据进行校验，转换解析和初始

2017-09-29 11:03:33 247

转载 elasticsearch-sql插件安装与使用

elasticsearch版本为2.2.0源码地址：https://github.com/NLPchina/elasticsearch-sql/tree/elastic2.2.0安装方式有以下三种：1、按照以上链接说明的方式进行安装./bin/plugin install https://github.com/NLPchina/elasticsearch-sql/r

2017-09-28 17:22:17 690

转载 Elasticsearch.5.4.1+kibana5.4.1+IK分词集群搭建

报错问题解决es安装过程中可能会遇到以下错误，对应解决方案错误1：max file descriptors [4096] for elasticsearch process likely too low, increase to at least [65536]修改：/etc/security/limits.conf* hard nofile

2017-09-28 17:06:57 308

转载 Hbase 技术细节笔记（上）

前言最近在跟进Hbase的相关工作，由于之前对Hbase并不怎么了解，因此系统地学习了下Hbase，为了加深对Hbase的理解，对相关知识点做了笔记，并在组内进行了Hbase相关技术的分享，由于Hbase涵盖的内容比较多，因此计划分享2期，下面就是针对第一期Hbase技术分享整体而成，第一期的主要内容如下:一、Hbase介绍二、Hbase的Region介绍三、Hbase的写

2017-09-28 16:34:15 493

转载 elasticsearch 版本 2xx和5xx 及 elasticsearch5.x 新特性

其实，elasticsearch5.x 和 elasticsearch2.x 并不区别很大。　　是因为，ELK里之前版本各种很混乱，直接升级到5.0了。　　其实，elasticsearch5.x 按理来说是elasticsearch3.x，只是为了跟随ELK整体版本的统一。　　　　　　下面给大家

2017-09-28 09:30:35 8112

原创 hive官方文档和系列课程

https://cwiki.apache.org/confluence/display/Hive/Home#Home-UserDocumentationhttp://sishuok.com/forum/blogPost/list/0/6225.html

2017-09-27 17:22:41 352

转载 Hive 内建操作符与函数开发——深入浅出学Hive

第一部分：关系运算Hive支持的关系运算符•常见的关系运算符•等值比较: =•不等值比较: •小于比较: •小于等于比较: •大于比较: >•大于等于比较: >=•空值判断: IS NULL•非空判断: IS NOT NULL•LIKE比较: LIKE•JAVA的LIKE操作: RLIKE

2017-09-27 17:18:56 189

转载 Java基础学习总结——面向对象

一、面向过程的思想和面向对象的思想面向对象和面向过程的思想有着本质上的区别, 作为面向对象的思维来说，当你拿到一个问题时，你分析这个问题不再是第一步先做什么，第二步再做什么，这是面向过程的思维，你应该分析这个问题里面有哪些类和对象，这是第一点，然后再分析这些类和对象应该具有哪些属性和方法。这是第二点。最后分析类和类之间具体有什么关系，这是第三点。

2017-09-27 11:30:03 187

转载深入理解Java的接口和抽象类

对于面向对象编程来说，抽象是它的一大特征之一。在Java中，可以通过两种形式来体现OOP的抽象：接口和抽象类。这两者有太多相似的地方，又有太多不同的地方。很多人在初学的时候会以为它们可以随意互换使用，但是实际则不然。今天我们就一起来学习一下Java中的接口和抽象类。下面是本文的目录大纲：一.抽象类二.接口三.抽象类和接口的区别一.抽象类在了解抽象类之

2017-09-27 11:11:40 163

转载 BloomFilter——大规模数据处理利器

Bloom Filter是由Bloom在1970年提出的一种多哈希函数映射的快速查找算法。通常应用在一些需要快速判断某个元素是否属于集合，但是并不严格要求100%正确的场合。一. 实例　　为了说明Bloom Filter存在的重要意义，举一个实例：　　假设要你写一个网络蜘蛛（web crawler）。由于网络间的链接错综复杂，蜘蛛在网络间爬行很可能会形成“环”。

2017-09-27 10:43:49 191

转载使用canal进行mysql数据同步到Redis

1. 可行方案回归正题：我们的标题为《使用canal进行MySQL数据同步到Redis》，那就先来说说我们的目的：mysql数据同步到Redis，想达到读写分离，Redis只做缓存，MySQL做持久化。刚开始想这样干的时候就去网上收集资料，发现了N多做法：先从Redis读取数据，如果没有查询到；便从mysql查询数据，将查询到的内容放到Redis中。对于写操作，先对mysq

2017-09-26 16:46:26 622

转载利用Flume将MySQL表数据准实时抽取到HDFS

一、为什么要用到Flume 在以前搭建HAWQ数据仓库实验环境时，我使用Sqoop抽取从MySQL数据库增量抽取数据到HDFS，然后用HAWQ的外部表进行访问。这种方式只需要很少量的配置即可完成数据抽取任务，但缺点同样明显，那就是实时性。Sqoop使用MapReduce读写数据，而MapReduce是为了批处理场景设计的，目标是大吞吐量，并不太关心低延时问题。就像实验中所做的，每

2017-09-26 10:54:49 258

转载 Python机器学习路线图

开始。这是最容易令人丧失斗志的两个字。迈出第一步通常最艰难。当可以选择的方向太多时，就更让人两腿发软了。从哪里开始？本文旨在通过七个步骤，使用全部免费的线上资料，帮助新人获取最基本的 Python 机器学习知识，直至成为博学的机器学习实践者。这篇概述的主要目的是带领读者接触众多免费的学习资源。这些资源有很多，但哪些是最好的？哪些相互补充？怎样的学习顺序才最好？我假定本文的读

2017-09-22 17:25:15 778

转载 Flume性能测试报告

1. 测试环境1.1 硬件CPU：Intel(R) Core(TM) i7-6700 CPU @ 3.40GHz（8核）内存：16G1.2 软件Flume：1.6.0Hadoop：2.6.0-cdh5.5.0Kfaka：2.11-0.9.0.1JDK：1.8.0_91-b14 64位1.3 测试文件文件大小：107M ，共490010条记录1

2017-09-20 10:39:32 1129

转载 flume开发-自定义拦截器(Interceptor)

拦截器是简单的插件式组件，设置在source和channel之间。source接收到的时间，在写入channel之前，拦截器都可以进行转换或者删除这些事件。每个拦截器只处理同一个source接收到的事件。flume官方实现了很多拦截器也可以自定义拦截器。通过实现自定义的拦截器可以对日志进行ETL。自定义拦截器只需要实现Interceptor的继承类。具体步骤如下：1.

2017-09-20 10:21:46 587

转载 flume 自定义正则过滤器

本文实现：flume 读取日志信息时，通过正则匹配过滤，将匹配到的结果存放在指定文件目录。本文结构： 1. 编写自定义过滤器 2. 编写flume配置文件 3. 运行测试日志信息过滤前：2017-01-06T11:32:48: Debug: D-UNK-000-000: Rules file processing took 332 usec.2017-

2017-09-19 15:34:31 605 1

转载 Flume Interceptors的使用

对于flume拦截器,我的理解是：在app(应用程序日志)和 source 之间的，对app日志进行拦截处理的。也即在日志进入到source之前，对日志进行一些包装、清新过滤等等动作。官方上提供的已有的拦截器有：Timestamp InterceptorHost InterceptorStatic InterceptorRegex Filtering Int

2017-09-19 10:43:54 335

转载数据仓库分层架构设计

大数据数据仓库是基于HIVE构建的数据仓库，分布文件系统为HDFS，资源管理为Yarn，计算引擎主要包括MapReduce/Tez/Spark等，分层架构如下：1、数据来源层：日志或者关系型数据库，并通过Flume、Sqoop、Kettle等etl工具导入到HDFS，并映射到HIVE的数据仓库表中。2、事实表是数据仓库结构

2017-09-15 10:39:39 829

原创 hiveserver2及beeline使用

一、启动hiveserver2hive --service hiveserver2二、如何执行执行语句beeline -u jdbc:hive2://cdh1:10000 -e 'show tables'执行文件beeline -u jdbc:hive2://cdh1:10000 -e ‘xxx.hql’

2017-09-14 15:39:40 385

原创 CDH的hive版本和apache的hive之间的关系

https://community.cloudera.com/t5/Hadoop-101-Training-Quickstart/Hive-Upgrade-from-1-1-0-to-2-0-0-in-CDH5-7-0/m-p/40626

2017-09-14 15:14:59 4486 1

转载理解维度数据仓库——事实表、维度表、聚合表

事实表在多维数据仓库中，保存度量值的详细值或事实的表称为“事实表”。一个按照州、产品和月份划分的销售量和销售额存储的事实表有5个列，概念上与下面的示例类似。 SateProductMouthUnitsDollarsWAMountain-100January3

2017-09-14 10:11:28 2136

转载 2017年度15个适用的数据科学领域Python库

尽管Python在数据科学领域在近些年已经吸引了很多注意力，我们想要基于我们的经验，大概描述一下数据科学家和工程师常用的也是十分有用的Python库。核心库1、Numpy当开始尝试用Python解决科学任务时，我们不可避免会求助于Python的SciPy Stack，Scipy Stack是一个专门为在Python上进行科学计算的软件的集合(不要为SciPy包而

2017-09-08 10:35:43 370

qq_24365213的博客