- 博客(22)
- 收藏
- 关注
转载 java学习系列4(类加载机制及反射)
一、Java类加载机制1.概述 Class文件由类装载器装载后,在JVM中将形成一份描述Class结构的元信息对象,通过该元信息对象可以获知Class的结构信息:如构造函数,属性和方法等,Java允许用户借由这个Class相关的元信息对象间接调用Class对象的功能。 虚拟机把描述类的数据从class文件加载到内存,并对数据进行校验,转换解析和初始
2017-09-29 11:03:33 247
转载 elasticsearch-sql插件安装与使用
elasticsearch版本为2.2.0源码地址:https://github.com/NLPchina/elasticsearch-sql/tree/elastic2.2.0安装方式有以下三种:1、按照以上链接说明的方式进行安装./bin/plugin install https://github.com/NLPchina/elasticsearch-sql/r
2017-09-28 17:22:17 690
转载 Elasticsearch.5.4.1+kibana5.4.1+IK分词集群搭建
报错问题解决es安装过程中可能会遇到以下错误,对应解决方案错误1:max file descriptors [4096] for elasticsearch process likely too low, increase to at least [65536]修改:/etc/security/limits.conf* hard nofile
2017-09-28 17:06:57 308
转载 Hbase 技术细节笔记(上)
前言最近在跟进Hbase的相关工作,由于之前对Hbase并不怎么了解,因此系统地学习了下Hbase,为了加深对Hbase的理解,对相关知识点做了笔记,并在组内进行了Hbase相关技术的分享,由于Hbase涵盖的内容比较多,因此计划分享2期,下面就是针对第一期Hbase技术分享整体而成,第一期的主要内容如下:一、Hbase介绍二、Hbase的Region介绍三、Hbase的写
2017-09-28 16:34:15 493
转载 elasticsearch 版本 2xx和5xx 及 elasticsearch5.x 新特性
其实,elasticsearch5.x 和 elasticsearch2.x 并不区别很大。 是因为,ELK里之前版本各种很混乱,直接升级到5.0了。 其实,elasticsearch5.x 按理来说是elasticsearch3.x,只是为了跟随ELK整体版本的统一。 下面给大家
2017-09-28 09:30:35 8112
原创 hive官方文档和系列课程
https://cwiki.apache.org/confluence/display/Hive/Home#Home-UserDocumentationhttp://sishuok.com/forum/blogPost/list/0/6225.html
2017-09-27 17:22:41 352
转载 Hive 内建操作符与函数开发——深入浅出学Hive
第一部分:关系运算Hive支持的关系运算符•常见的关系运算符•等值比较: =•不等值比较: •小于比较: •小于等于比较: •大于比较: >•大于等于比较: >=•空值判断: IS NULL•非空判断: IS NOT NULL•LIKE比较: LIKE•JAVA的LIKE操作: RLIKE
2017-09-27 17:18:56 189
转载 Java基础学习总结——面向对象
一、面向过程的思想和面向对象的思想 面向对象和面向过程的思想有着本质上的区别, 作为面向对象的思维来说,当你拿到一个问题时,你分析这个问题不再是第一步先做什么,第二步再做什么,这是面向过程的思维,你应该分析这个问题里面有哪些类和对象,这是第一点,然后再分析这些类和对象应该具有哪些属性和方法。这是第二点。最后分析类和类之间具体有什么关系,这是第三点。
2017-09-27 11:30:03 187
转载 深入理解Java的接口和抽象类
对于面向对象编程来说,抽象是它的一大特征之一。在Java中,可以通过两种形式来体现OOP的抽象:接口和抽象类。这两者有太多相似的地方,又有太多不同的地方。很多人在初学的时候会以为它们可以随意互换使用,但是实际则不然。今天我们就一起来学习一下Java中的接口和抽象类。下面是本文的目录大纲:一.抽象类 二.接口 三.抽象类和接口的区别一.抽象类在了解抽象类之
2017-09-27 11:11:40 163
转载 BloomFilter——大规模数据处理利器
Bloom Filter是由Bloom在1970年提出的一种多哈希函数映射的快速查找算法。通常应用在一些需要快速判断某个元素是否属于集合,但是并不严格要求100%正确的场合。 一. 实例 为了说明Bloom Filter存在的重要意义,举一个实例: 假设要你写一个网络蜘蛛(web crawler)。由于网络间的链接错综复杂,蜘蛛在网络间爬行很可能会形成“环”。
2017-09-27 10:43:49 191
转载 使用canal进行mysql数据同步到Redis
1. 可行方案回归正题:我们的标题为《使用canal进行MySQL数据同步到Redis》,那就先来说说我们的目的:mysql数据同步到Redis,想达到读写分离,Redis只做缓存,MySQL做持久化。刚开始想这样干的时候就去网上收集资料,发现了N多做法:先从Redis读取数据,如果没有查询到;便从mysql查询数据,将查询到的内容放到Redis中。对于写操作,先对mysq
2017-09-26 16:46:26 622
转载 利用Flume将MySQL表数据准实时抽取到HDFS
一、为什么要用到Flume 在以前搭建HAWQ数据仓库实验环境时,我使用Sqoop抽取从MySQL数据库增量抽取数据到HDFS,然后用HAWQ的外部表进行访问。这种方式只需要很少量的配置即可完成数据抽取任务,但缺点同样明显,那就是实时性。Sqoop使用MapReduce读写数据,而MapReduce是为了批处理场景设计的,目标是大吞吐量,并不太关心低延时问题。就像实验中所做的,每
2017-09-26 10:54:49 258
转载 Python机器学习路线图
开始。这是最容易令人丧失斗志的两个字。迈出第一步通常最艰难。当可以选择的方向太多时,就更让人两腿发软了。从哪里开始?本文旨在通过七个步骤,使用全部免费的线上资料,帮助新人获取最基本的 Python 机器学习知识,直至成为博学的机器学习实践者。这篇概述的主要目的是带领读者接触众多免费的学习资源。这些资源有很多,但哪些是最好的?哪些相互补充?怎样的学习顺序才最好?我假定本文的读
2017-09-22 17:25:15 778
转载 Flume性能测试报告
1. 测试环境1.1 硬件CPU:Intel(R) Core(TM) i7-6700 CPU @ 3.40GHz(8核)内存:16G1.2 软件Flume:1.6.0Hadoop:2.6.0-cdh5.5.0Kfaka:2.11-0.9.0.1JDK:1.8.0_91-b14 64位1.3 测试文件文件大小:107M ,共490010条记录1
2017-09-20 10:39:32 1129
转载 flume开发-自定义拦截器(Interceptor)
拦截器是简单的插件式组件,设置在source和channel之间。source接收到的时间,在写入channel之前,拦截器都可以进行转换或者删除这些事件。每个拦截器只处理同一个source接收到的事件。flume官方实现了很多拦截器也可以自定义拦截器。通过实现自定义的拦截器可以对日志进行ETL。自定义拦截器只需要实现Interceptor的继承类。具体步骤如下:1.
2017-09-20 10:21:46 587
转载 flume 自定义正则过滤器
本文实现:flume 读取日志信息时,通过正则匹配过滤,将匹配到的结果存放在指定文件目录。本文结构: 1. 编写自定义过滤器 2. 编写flume配置文件 3. 运行测试日志信息过滤前:2017-01-06T11:32:48: Debug: D-UNK-000-000: Rules file processing took 332 usec.2017-
2017-09-19 15:34:31 605 1
转载 Flume Interceptors的使用
对于flume拦截器,我的理解是:在app(应用程序日志)和 source 之间的,对app日志进行拦截处理的。也即在日志进入到source之前,对日志进行一些包装、清新过滤等等动作。官方上提供的已有的拦截器有:Timestamp InterceptorHost InterceptorStatic InterceptorRegex Filtering Int
2017-09-19 10:43:54 335
转载 数据仓库分层架构设计
大数据数据仓库是基于HIVE构建的数据仓库,分布文件系统为HDFS,资源管理为Yarn,计算引擎主要包括MapReduce/Tez/Spark等,分层架构如下:1、数据来源层:日志或者关系型数据库,并通过Flume、Sqoop、Kettle等etl工具导入到HDFS,并映射到HIVE的数据仓库表中。2、事实表是数据仓库结构
2017-09-15 10:39:39 829
原创 hiveserver2及beeline使用
一、启动hiveserver2hive --service hiveserver2二、如何执行执行语句beeline -u jdbc:hive2://cdh1:10000 -e 'show tables'执行文件beeline -u jdbc:hive2://cdh1:10000 -e ‘xxx.hql’
2017-09-14 15:39:40 385
原创 CDH的hive版本和apache的hive之间的关系
https://community.cloudera.com/t5/Hadoop-101-Training-Quickstart/Hive-Upgrade-from-1-1-0-to-2-0-0-in-CDH5-7-0/m-p/40626
2017-09-14 15:14:59 4486 1
转载 理解维度数据仓库——事实表、维度表、聚合表
事实表在多维数据仓库中,保存度量值的详细值或事实的表称为“事实表”。一个按照州、产品和月份划分的销售量和销售额存储的事实表有5个列,概念上与下面的示例类似。 SateProductMouthUnitsDollarsWAMountain-100January3
2017-09-14 10:11:28 2136
转载 2017年度15个适用的数据科学领域Python库
尽管Python在数据科学领域在近些年已经吸引了很多注意力,我们想要基于我们的经验,大概描述一下数据科学家和工程师常用的也是十分有用的Python库。核心库1、Numpy当开始尝试用Python解决科学任务时,我们不可避免会求助于Python的SciPy Stack,Scipy Stack是一个专门为在Python上进行科学计算的软件的集合(不要为SciPy包而
2017-09-08 10:35:43 370
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人