- 博客(27)
- 资源 (3)
- 问答 (1)
- 收藏
- 关注
原创 Kubernetes日志收集:log-pilot+KAFKA+Logstash+ES
通过log-pilot+KAFKA+Logstash+ES收集K8S中Pod日志一、log-pilot安装apiVersion: apps/v1kind: DaemonSetmetadata: annotations: deprecated.daemonset.template.generation: '11' generation: 11 labels: ap...
2020-03-26 16:42:28 2639 9
原创 Flink程序经过reduce聚合后不输出sink的问题
Flink程序经过reduce聚合后不输出sink的问题一、最近提交的一版flink流式计算程序,经过EventTimeSessionWindows后进行了reduce聚合,完成计算完成后迟迟不sink输出结果。记录下踩过的坑程序很简单,直接上代码:StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutio...
2020-03-18 13:51:54 1982 1
原创 CentOS6安装搭建Cloudera Manager 5和CDH5(版本5.13.3)大数据集群
系统环境: 四台虚拟主机 操作系统:CentOS 6(8核,16G,512G硬盘) Cloudera Manager:5.13.3 CDH: 5.13.3192.168.1.xx bigdata1 192.168.1.xx bigdata2 192.168.1.xx bigdata3 192.168.1.xx bigdata4相关资源下载: 1.Cloudera ...
2020-03-10 13:37:31 659
原创 通过Hive外部表迁移Kudu数据表
通过Hive外部表迁移Kudu数据表由于数据量越来越大,服务器难以支撑所以迁移到云上,记录下迁移kudu表的过程1、导出数据为csv文件:`impala-shell -q "select * from vs_kudu_xxx_days" -B --output_delimiter="," -o /opt/vs_kudu_xxx_days_0131.csv2、scp csv文件到云服务器...
2019-02-27 14:38:24 5241 4
原创 Kafka指定patition消费
As everyone knows the kafka producer can send message to specific patition:producer.send(new ProducerRecord<String, String>("topic", patition,"key","value"));Now learn to recei
2018-09-07 10:04:36 1569
原创 ES分页问题及使用Scroll-Scans接口导出数据到csv
最近在对ES中大量数据做分页展示并导出一、offset大于一万的时候报错了。。。原来有一个参数:index.max_result_window控制估量一下数据量大小改大即可,此值是integer类型,不能无限大,而且但过大会影响ES查询效率:步骤: 首先关闭索引: 红线处改成索引名提交即可: { “max_result_window” : “100000000”}PU...
2018-04-20 17:26:24 1248
原创 使用ES-Hadoop插件通过Hive查询ES中的数据
本来是想既然可以通过es-hadoop插件用hive查询es的数据,为啥不能用impala来做分析呢; 结果是hive查es成功了,impala查询不了,悲剧,但还是记录一下过程中遇到的问题,特别是日期格式转换那里搞了好久。安装: 下载地址:https://www.elastic.co/cn/downloads/hadoop 找对应或高于自己es的版本即可 下载下来其实是一堆jar包...
2018-04-20 16:49:08 3718 3
原创 使用MapReduce解析HDFS中的文件生成HFile文件导入HBase(三)
使用MapReduce生成HFile文件是导入大量数据到HBase的最快方法总共分为两部分,生成HFile和导入到HBase一、生成HFile1.主程序ConvertToHFiles.javapublic class ConvertToHFiles extends Configured implements Tool { private static final L...
2018-03-23 15:17:15 2486 3
原创 流式处理新玩法,Esper和Storm的联合统计分析
自带的TwitterEsperSample.java例子好像不太好用,反正运行着没什么效果自己写一个例子总的来说就是spout模拟发送5次数据,EsperBolt接收后根据规则进行统计输出(这里是每两次计算平均值),然后最后一个bolt展示结果
2017-07-05 16:14:35 3956
原创 六台Debian主机安装搭建Cloudera Manager 5和CDH5(版本5.9.0)大数据集群
系统环境: 六台虚拟主机 操作系统:Debian 7(8核,32G,512G硬盘) Cloudera Manager:5.9.0 CDH: 5.9.0192.168.0.xx cdh1 192.168.0.xx cdh2 192.168.0.xx cdh3 192.168.0.xx cdh4 192.168.0.xx cdh5 192.168.0.xx cdh6相关资源下载: 1
2016-12-05 15:41:39 3656 1
原创 通过MapReduce把Hive表数据导入到HBase
由于Hive查询速度比较慢,进行了表分区使用Impala也是很满意,所以为了公司业务展示,需要测试使用HBase的查询速度怎么样,头一件事就是把HIVE的数据导入到HBase中,搜了半天也没搜到到底该怎么搞,也有说能用Sqoop的,可是没找到资料,只好自己用MapReduce实现。话不多说,逻辑很简单,只是用了Map,直接上代码。
2016-07-13 22:37:02 3546
原创 使用JAVA API和MapReduce读取HBase里的数据(可用作HBase数据清洗)
使用JAVA API和MapReduce读取HBase里的数据
2016-06-21 14:57:41 3922
原创 使用MapReduce将Hadoop HDFS中的日志文件导入HBase中(二)
今天来记录一下由HDFS高效率导入HBase的两种导入方式。经过测试,导入时间明显减少。1.使用Map+Reduce方式 2.只使用Map的方式
2016-05-13 09:28:49 2036
原创 HBase源码分析之客户端连接发展历程
一直在找关于HBase线程池的实现方法,不过找到的资料都是之前的老版本,现在都已经被@deprecated。1.较早的版本使用的HTablePool类/** * A simple pool of HTable instances. * HTable的线程池 * * Each HTablePool acts as a pool for all tables. To use, instanti
2016-05-11 13:52:54 2138
原创 浅谈HBase系统架构
一、HBase基本架构和核心功能模块Client:客户端Client是HBase系统的入口,使用者直接通过客户端操作HBase;Client使用HBase的RPC机制与HMaster和RegionServer进行通信,对HBase 管理类操作,Client与HMaster进行RPC通信;对数据读写类操作,Client与 RegionServer进行RPC交互;Client客户端允许有多个,包括
2016-05-11 10:32:02 1232
原创 Hadoop2.*源码分析之Job任务提交与执行
写MapReduce程序创建一个Job执行时一般使用下面这个方法System.exit(job.waitForCompletion(true) ? 0 : 1);今天来分析以下Job是如何被执行的waitForCompletion方法中真正提交job的代码如下: /** * Submit the job to the cluster and wait for it to finish.
2016-05-01 23:28:52 1793
原创 使用JAVA将Hadoop HDFS中的日志文件导入HBase中(一)
开发环境硬件环境:Centos 6.5 服务器3台(一台为Master节点,两台为Slave节点) 软件环境:Java 1.7.0_71、IDEA、Hadoop-2.6.2、hbase-1.1.4一、生成日志文件假设日志文件有六列,每列之间由空格间隔 例如:aaa 20.3.111.3 bbb user nothing 2016-05-01www 22.3.201.7 ggg user no
2016-05-01 16:50:55 4085 1
原创 HBase分布式安装配置图文详解
一、准备工作首先确保已经搭建好Hadoop集群环境,可以参考之前的博文安装配置好。《Hadoop分布式集群环境搭建》HBase需要依赖Zookeeper管理,所以确保每台机器都安装配置好了Zookeeper,可以参考之前的博文(注:可视化ZKUI为选装插件)《 Zookeeper安装配置及可视化ZKUI安装配置》下载HBase安装包,这里选择了hbase-1.1.4-bin.tar.gzhba
2016-05-01 11:28:24 906
原创 Hadoop分布式集群环境搭建(三节点)
一、安装准备创建hadoop账号更改ip安装Java 更改/etc/profile 配置环境变量export $JAVA_HOME=/usr/java/jdk1.7.0_71修改host文件域名172.16.133.149 hadoop101172.16.133.150 hadoop102172.16.133.151 hadoop103 安装ssh 配置无密码登录解压hadoop/ha
2016-05-01 09:59:51 1838
原创 Zookeeper安装配置及可视化ZKUI安装配置(zookeeper3.4.6)
一、Zookeeper安装配置安装配置jdk解压Zookeeper的tar安装包修改配置文件cd /hadoop/zookeeper-3.4.6/conf/cp zoo_sample.cfg zoo.cfgvim zoo.cfg修改:dataDir=/weekend/zookeeper-3.4.5/data在最后添加:(几个Zookeeper机器就写几个~)server.1=hadoo
2016-04-17 22:07:52 2855
原创 Hive1.2.1本地、远程模式安装配置及常见错误
一、运行环境CentOS 6.5 64位jdk_1.7.0_71 64位hadoop-2.6.2mysql二、所需软件apache-hive-1.2.1-bin.tar.gz (下载地址:apache-hive-1.2.1-bin.tar.gz)mysql-connector-java-5.1.22-bin.jar三、安装配置解压apache-hive
2016-04-15 08:56:19 1395
原创 Hadoop2.6.2完全分布式集群HA模式安装配置详解
一、机器配置清单(8节点)hadoop100 节点:NameNode、DFSZKFailoverController(ZKFC)hadoop101 节点:NameNode、DFSZKFailoverController(ZKFC)hadoop102: 节点:ResourceManagerhadoop103: 节点:ResourceManagerhadoop104: 节点:Data
2016-04-13 16:15:43 7421 2
原创 Kafka安装配置及简单通道传输操作(kafka2.9.2)
Storm单机伪分布配置图文详细步骤一. Zookeeper安装配置(zookeeper3.4.6)安装配置jdk解压Zookeeper的tar安装包修改配置文件vim conf/zoo.cfg 修改配置文件中的dataDir、dataLogDir、server.1 启动zookeeper bin/zkServer.sh start启动后查看状态 bin/zkServer.sh st
2016-04-05 21:56:29 2794 2
原创 Android-记录ListView的位置,让ListView下次直接滚动到记录的位置
有时在view切换时,需要恢复listView之前滚动到的位置,记录一下自己觉得比较好用的一种方法记录listView滚动到的位置的坐标//当前可见的List顶端的一行的位置private int scrollPos = 0;//当前第一个可见的item的偏移量private int scrollTop = 0;contactList.set
2014-11-27 15:51:18 955
JAVA将HDFS中的文件导入HBase
2016-05-01
httpclient4.5访问网页时报Cookie rejected
2016-06-24
TA创建的收藏夹 TA关注的收藏夹
TA关注的人