自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(22)
  • 收藏
  • 关注

转载 java学习系列4(类加载机制及反射)

一、Java类加载机制1.概述       Class文件由类装载器装载后,在JVM中将形成一份描述Class结构的元信息对象,通过该元信息对象可以获知Class的结构信息:如构造函数,属性和方法等,Java允许用户借由这个Class相关的元信息对象间接调用Class对象的功能。      虚拟机把描述类的数据从class文件加载到内存,并对数据进行校验,转换解析和初始

2017-09-29 11:03:33 247

转载 elasticsearch-sql插件安装与使用

elasticsearch版本为2.2.0源码地址:https://github.com/NLPchina/elasticsearch-sql/tree/elastic2.2.0安装方式有以下三种:1、按照以上链接说明的方式进行安装./bin/plugin install https://github.com/NLPchina/elasticsearch-sql/r

2017-09-28 17:22:17 690

转载 Elasticsearch.5.4.1+kibana5.4.1+IK分词集群搭建

报错问题解决es安装过程中可能会遇到以下错误,对应解决方案错误1:max file descriptors [4096] for elasticsearch process likely too low, increase to at least [65536]修改:/etc/security/limits.conf* hard nofile

2017-09-28 17:06:57 308

转载 Hbase 技术细节笔记(上)

前言最近在跟进Hbase的相关工作,由于之前对Hbase并不怎么了解,因此系统地学习了下Hbase,为了加深对Hbase的理解,对相关知识点做了笔记,并在组内进行了Hbase相关技术的分享,由于Hbase涵盖的内容比较多,因此计划分享2期,下面就是针对第一期Hbase技术分享整体而成,第一期的主要内容如下:一、Hbase介绍二、Hbase的Region介绍三、Hbase的写

2017-09-28 16:34:15 493

转载 elasticsearch 版本 2xx和5xx 及 elasticsearch5.x 新特性

其实,elasticsearch5.x 和 elasticsearch2.x 并不区别很大。  是因为,ELK里之前版本各种很混乱,直接升级到5.0了。  其实,elasticsearch5.x 按理来说是elasticsearch3.x,只是为了跟随ELK整体版本的统一。              下面给大家

2017-09-28 09:30:35 8112

原创 hive官方文档和系列课程

https://cwiki.apache.org/confluence/display/Hive/Home#Home-UserDocumentationhttp://sishuok.com/forum/blogPost/list/0/6225.html

2017-09-27 17:22:41 352

转载 Hive 内建操作符与函数开发——深入浅出学Hive

第一部分:关系运算Hive支持的关系运算符•常见的关系运算符•等值比较: =•不等值比较: •小于比较: •小于等于比较: •大于比较: >•大于等于比较: >=•空值判断: IS NULL•非空判断: IS NOT NULL•LIKE比较: LIKE•JAVA的LIKE操作: RLIKE

2017-09-27 17:18:56 189

转载 Java基础学习总结——面向对象

一、面向过程的思想和面向对象的思想        面向对象和面向过程的思想有着本质上的区别, 作为面向对象的思维来说,当你拿到一个问题时,你分析这个问题不再是第一步先做什么,第二步再做什么,这是面向过程的思维,你应该分析这个问题里面有哪些类和对象,这是第一点,然后再分析这些类和对象应该具有哪些属性和方法。这是第二点。最后分析类和类之间具体有什么关系,这是第三点。        

2017-09-27 11:30:03 187

转载 深入理解Java的接口和抽象类

对于面向对象编程来说,抽象是它的一大特征之一。在Java中,可以通过两种形式来体现OOP的抽象:接口和抽象类。这两者有太多相似的地方,又有太多不同的地方。很多人在初学的时候会以为它们可以随意互换使用,但是实际则不然。今天我们就一起来学习一下Java中的接口和抽象类。下面是本文的目录大纲:一.抽象类 二.接口 三.抽象类和接口的区别一.抽象类在了解抽象类之

2017-09-27 11:11:40 163

转载 BloomFilter——大规模数据处理利器

Bloom Filter是由Bloom在1970年提出的一种多哈希函数映射的快速查找算法。通常应用在一些需要快速判断某个元素是否属于集合,但是并不严格要求100%正确的场合。 一. 实例   为了说明Bloom Filter存在的重要意义,举一个实例:  假设要你写一个网络蜘蛛(web crawler)。由于网络间的链接错综复杂,蜘蛛在网络间爬行很可能会形成“环”。

2017-09-27 10:43:49 191

转载 使用canal进行mysql数据同步到Redis

1. 可行方案回归正题:我们的标题为《使用canal进行MySQL数据同步到Redis》,那就先来说说我们的目的:mysql数据同步到Redis,想达到读写分离,Redis只做缓存,MySQL做持久化。刚开始想这样干的时候就去网上收集资料,发现了N多做法:先从Redis读取数据,如果没有查询到;便从mysql查询数据,将查询到的内容放到Redis中。对于写操作,先对mysq

2017-09-26 16:46:26 622

转载 利用Flume将MySQL表数据准实时抽取到HDFS

一、为什么要用到Flume        在以前搭建HAWQ数据仓库实验环境时,我使用Sqoop抽取从MySQL数据库增量抽取数据到HDFS,然后用HAWQ的外部表进行访问。这种方式只需要很少量的配置即可完成数据抽取任务,但缺点同样明显,那就是实时性。Sqoop使用MapReduce读写数据,而MapReduce是为了批处理场景设计的,目标是大吞吐量,并不太关心低延时问题。就像实验中所做的,每

2017-09-26 10:54:49 258

转载 Python机器学习路线图

开始。这是最容易令人丧失斗志的两个字。迈出第一步通常最艰难。当可以选择的方向太多时,就更让人两腿发软了。从哪里开始?本文旨在通过七个步骤,使用全部免费的线上资料,帮助新人获取最基本的 Python 机器学习知识,直至成为博学的机器学习实践者。这篇概述的主要目的是带领读者接触众多免费的学习资源。这些资源有很多,但哪些是最好的?哪些相互补充?怎样的学习顺序才最好?我假定本文的读

2017-09-22 17:25:15 778

转载 Flume性能测试报告

1. 测试环境1.1 硬件CPU:Intel(R) Core(TM) i7-6700 CPU @ 3.40GHz(8核)内存:16G1.2 软件Flume:1.6.0Hadoop:2.6.0-cdh5.5.0Kfaka:2.11-0.9.0.1JDK:1.8.0_91-b14 64位1.3 测试文件文件大小:107M ,共490010条记录1

2017-09-20 10:39:32 1129

转载 flume开发-自定义拦截器(Interceptor)

拦截器是简单的插件式组件,设置在source和channel之间。source接收到的时间,在写入channel之前,拦截器都可以进行转换或者删除这些事件。每个拦截器只处理同一个source接收到的事件。flume官方实现了很多拦截器也可以自定义拦截器。通过实现自定义的拦截器可以对日志进行ETL。自定义拦截器只需要实现Interceptor的继承类。具体步骤如下:1.

2017-09-20 10:21:46 587

转载 flume 自定义正则过滤器

本文实现:flume 读取日志信息时,通过正则匹配过滤,将匹配到的结果存放在指定文件目录。本文结构: 1. 编写自定义过滤器 2. 编写flume配置文件 3. 运行测试日志信息过滤前:2017-01-06T11:32:48: Debug: D-UNK-000-000: Rules file processing took 332 usec.2017-

2017-09-19 15:34:31 605 1

转载 Flume Interceptors的使用

对于flume拦截器,我的理解是:在app(应用程序日志)和 source 之间的,对app日志进行拦截处理的。也即在日志进入到source之前,对日志进行一些包装、清新过滤等等动作。官方上提供的已有的拦截器有:Timestamp InterceptorHost InterceptorStatic InterceptorRegex Filtering Int

2017-09-19 10:43:54 335

转载 数据仓库分层架构设计

大数据数据仓库是基于HIVE构建的数据仓库,分布文件系统为HDFS,资源管理为Yarn,计算引擎主要包括MapReduce/Tez/Spark等,分层架构如下:1、数据来源层:日志或者关系型数据库,并通过Flume、Sqoop、Kettle等etl工具导入到HDFS,并映射到HIVE的数据仓库表中。2、事实表是数据仓库结构

2017-09-15 10:39:39 829

原创 hiveserver2及beeline使用

一、启动hiveserver2hive --service hiveserver2二、如何执行执行语句beeline -u jdbc:hive2://cdh1:10000 -e 'show tables'执行文件beeline -u jdbc:hive2://cdh1:10000 -e ‘xxx.hql’

2017-09-14 15:39:40 385

原创 CDH的hive版本和apache的hive之间的关系

https://community.cloudera.com/t5/Hadoop-101-Training-Quickstart/Hive-Upgrade-from-1-1-0-to-2-0-0-in-CDH5-7-0/m-p/40626

2017-09-14 15:14:59 4486 1

转载 理解维度数据仓库——事实表、维度表、聚合表

事实表在多维数据仓库中,保存度量值的详细值或事实的表称为“事实表”。一个按照州、产品和月份划分的销售量和销售额存储的事实表有5个列,概念上与下面的示例类似。 SateProductMouthUnitsDollarsWAMountain-100January3

2017-09-14 10:11:28 2136

转载 2017年度15个适用的数据科学领域Python库

尽管Python在数据科学领域在近些年已经吸引了很多注意力,我们想要基于我们的经验,大概描述一下数据科学家和工程师常用的也是十分有用的Python库。核心库1、Numpy当开始尝试用Python解决科学任务时,我们不可避免会求助于Python的SciPy Stack,Scipy Stack是一个专门为在Python上进行科学计算的软件的集合(不要为SciPy包而

2017-09-08 10:35:43 370

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除