涂作权的博客

成功就是将个人潜能发挥到极限!&&以大多数人的努力程度之低,根本还轮不到拼天赋!...

数据采集之解析Mysql的binlog日志发送至Kafka实时消费(转:https://blog.csdn.net/liguohuabigdata/article/details/79472777)

本文采用Maxwell来实现实时解析mysql的binlog日志发送至kafka 1、开启mysql binlog 环境中mysql是docker容器,所以需要进入容器修改mysql配置. docker exec -it ef07dab4da9d bash 然后进入/...

2018-06-28 17:46:15

阅读数 787

评论数 0

大数据领域可以应聘的岗位

大数据开发工程师 大数据架构师 HADOOP工程师 大数据挖掘工程师 大数据分析师 ETL挖掘工程师 大数据管理 SPARK开发工程师

2018-06-23 14:53:59

阅读数 1279

评论数 0

通过Excel访问Kylin

1 通过Excel访问Kylin 1.1 Power Query下载 从微软官网下载和安装Power Query,如图18-4所示。下载地址: https://www.microsoft.com/zh-CN/download/details.aspx?id=39379 点击...

2018-06-23 14:45:38

阅读数 521

评论数 0

Azkaban任务调度(使用带有依赖的任务调度)【mapreduce数据清洗,数据入hive库,kylin预编译、数据分析】

1 Azkaban任务调度管理 1.1 执行任务的脚本编写和说明 在做任务调度的过程中,要编写相应的脚本。 -rwxrwxrwx 1 root root 809 6月 12 19:52 auto-exec-1-mr.sh -rwxrwxrwx 1 root root ...

2018-06-23 14:34:48

阅读数 1432

评论数 0

Flume日志采集,avro采集,以及通过参数控制下沉到hdfs的文件大小,时间等控制

1 Flume日志收集 1.1 总体介绍 官方地址:http://flume.apache.org/ 1.1.1 背景 flume 作为 cloudera 开发的实时日志收集系统,受到了业界的认可与广泛应用。Flume 初始的发行版本目前被统称为 Flume OG(orig...

2018-06-23 14:21:57

阅读数 1276

评论数 0

安装elasticsearch-analysis-ik中文分词器

1 安装elasticsearch-analysis-ik中文分词器 Ik介绍:ik是一款中文的分词插件,支持自定义词库。 1.1 下载ik分词器 下载地址:https://github.com/medcl/elasticsearch-analysis-ik/releases 下载指...

2018-06-23 12:07:06

阅读数 724

评论数 0

Kylin ODBC安装

1 Kylin ODBC安装 参考网址:http://kylin.apache.org/docs15/tutorial/odbc.html Kylin提供了ODBC驱动,用以兼容ODBC的客户端应用能够访问数据。 32bit 和 64bit的驱动都提供了。 在Windows7,window...

2018-06-23 11:57:52

阅读数 708

评论数 0

ElasticSearch集群安装,Kibana安装,Logstash安装,Logstash-input-plugin-jdbc的配置使用

1.安装elasticsearch 参考:https://www.2cto.com/kf/201802/723573.html 1.1 三台机器创建es运行的用户 Es不能再root用户下启动,需要为es的运行创建用户 [root@bigdata1 elasticsearch-6.2...

2018-06-23 11:49:39

阅读数 333

评论数 0

用于大数据开发的Centos7操作系统安装过程中遇到的问题总结

1.1 操作系统 机器域名 机器别名 xxx.xxx.xxx.xxx bigdata1 xxx.xxx.xxx.xxx bigdata2 xxx.xxx.xxx.xxx bigdata3 3台机器用户名和密码: 用户名 密码 root xxxx bigdata xxxxx ...

2018-06-23 11:17:02

阅读数 491

评论数 0

我理解的HBSE应用场景(交流篇)

1、数据量极大,并且要去实时查询的业务场景使用这个才会提现真正的应用价值。 2、若数据量没有到亿级别的实时查询,觉得用这个HBASE有些大材小用的感觉。,暂时没有达到亿级别,但是数据量增长特别快,能够很快的时间达到相应的量级,这时候用这个似乎更好一些 3、若使用数据库,亿级别这些,分库分表,索...

2018-06-18 18:37:25

阅读数 421

评论数 0

Hbase的应用场景、原理及架构分析(转:https://blog.csdn.net/xiangxizhishi/article/details/75388971)

Hbase概述 hbase是一个构建在HDFS上的分布式列存储系统。HBase是Apache Hadoop生态系统中的重要 一员,主要用于海量结构化数据存储。从逻辑上讲,HBase将数据按照表、行和列进行存储。 如图所示,Hbase构建在HDFS之上,hadoop之下。其内部管理的文件全部...

2018-06-18 18:31:05

阅读数 95

评论数 0

ES中搜索结果各属性说明介绍,以及搜索中的timeout机制讲解(来自学习资料,34节)

1、属性说明和介绍 执行命令: GET /test_index/test_type/_search?timeout=1s 运行后的结果如下: { "took": 4, "timed_out": false, ...

2018-06-15 01:21:41

阅读数 887

评论数 0

ElasticSearch bulk批量增删改语法(来自学习资料 + 自己整理,第27节)

1 bulk语法 通过bulk语法,可以将crud所需的不同的操作放在一个语句里面。 先来查找一下看是否有数据: 查询命令为如下时: GET /test_index/test_type/1 查询的结果是: { "_index": ...

2018-06-15 00:50:27

阅读数 902

评论数 1

kylin备份元数据(用于清除不用的数据方式)

转:https://blog.csdn.net/jiangshouzhuang/article/details/51290239 Kylin组织它所有的元数据(包括cube descriptions and instances, projects, inverted index descript...

2018-06-14 16:06:45

阅读数 1098

评论数 0

批量查询,mget语法,mget批量查询(来自学习资料,第26节)

1、批量查询的好处 就是一条一条的查询,比如说要查询100条数据,那么就要发送100次网络请求,这个开销还是很大的 如果进行批量查询的话,查询100条数据,就只要发送1次网络请求,网络请求的性能开销缩减100倍 2、mget的语法 (1)一条一条的查询 GET /test_index...

2018-06-14 00:58:48

阅读数 136

评论数 0

Hadoop性能调优、YARN的内存和CPU配置

Hadoop为用户作业提供了多种可配置的参数,以允许用户根据作业特点调整这些参数值使作业运行效率达到最优。 一 应用程序编写规范 1.设置Combiner 对于一大批MapReduce程序,如果可以设置一个Combiner,那么对于提高作业性能是十分有帮助的。Combiner...

2018-06-12 21:01:54

阅读数 4662

评论数 2

26、ES中使用mget批量查询api(学习笔记,来自课程资料 + 自己整理)

1、批量查询的好处 就是一条一条的查询,比如说要查询100条数据,那么就要发送100次网络请求,这个开销还是很大的,如果批量查询的话,查询100条数据,就只要发送1次网络请求,网络请求的性能开销缩减100倍。 2、mget的语法 (1)传统的一条条的查询的方式,语法如下: GET /tes...

2018-06-03 18:05:51

阅读数 877

评论数 0

17、document的全量替换,document的强制创建,document的删除(来源网络课程中的学习笔记)

1、document的全量替换 (1)语法与创建文档是一样的,如果document id不存在,那么就创建;如果document id已经存在,那么就是全量替换操作,替换document的json串内容。 (2)document是不可变的,如果修改document的内容天,第一种方式是全量替换...

2018-06-03 17:35:58

阅读数 127

评论数 0

16、分布式文档系统--document的_source元数据以及定制返回结果解析(来自学习资料+自己整理)

1、_source元数据 准备一条数据 put /test_index/test_type/1 { "test_field1": "test field1", "test_field2&q...

2018-06-03 17:22:02

阅读数 105

评论数 0

分布式文档系统-document id的手动指定与自动生成两种方式解析(来自学习笔记:龙果学院ES课程)

1、手动指定document id (1)根据应用情况来说,是否满足手动指定document id的前提: 一般来说,是从某些其他的系统中,导入一些数据到es时,会采取这种方式,就是使用系统中已有数据的唯一标识,作为es中document的id。举个例子,比如说,我们现在在开发一个电商网站,做...

2018-06-03 17:05:39

阅读数 235

评论数 0

提示
确定要删除当前文章?
取消 删除