- 博客(46)
- 资源 (8)
- 收藏
- 关注
原创 hive 同步数据到ES
1.相关jar包elasticsearch-hadoop-5.5.1.jar 下载地址:http://download.elastic.co/hadoop/到官网下载与ES一致的版本,比如ES版本是5.5.1,则下载http://download.elastic.co/hadoop/elasticsearch-hadoop-5.5.1.zipjar包就在压缩包dist目录中。2.添加jar包到hive中2.1 放置jar到hadoop 如下是放到hadoop根目录的jars目...
2020-06-20 18:01:16
2149
3
原创 大数据-hive报错记录
1.hive 与es 数据交互报错Diagnostic Messages for this Task:Error: java.lang.RuntimeException: java.lang.NoClassDefFoundError: org/apache/commons/httpclient/HttpConnectionManager at org.apache.hadoop.hive.ql.exec.mr.ExecMapper.map(ExecMapper.java:169)
2020-06-20 17:33:35
723
原创 kettle 宕机后报错
1.报错日志15:51:14,869 ERROR [BlueprintContainerImpl] Unable to start blueprint container for bundle pdi-dataservice-server-plugin due to unresolved dependencies [(objectClass=org.pentaho.metaverse.api...
2019-11-17 21:25:57
2485
1
原创 flume 简介和安装
1.flume 简介 Flume是一种分布式,可靠且可用的服务,用于有效地收集,聚合和移动大量日志数据。它具有基于流数据流的简单灵活的架构。它具有可靠的可靠性机制和许多故障转移和恢复机制,具有强大的容错性。它使用简单的可扩展数据模型,允许在线分析应用程序。2.数据流模型Flume事件被定义为具有字节有效负载和可选字符串属性集的数据流单元。 Flume代理是一个(JVM)进程,...
2019-08-03 11:36:23
390
原创 hadoop mapreduce 编写问题集
1.MapReduce没有日志信息 eclipse 运行MP后没有看到详细的日志信息,只有警告信息,没有跟linux系统一样的的,出现大量过程,资源信息日志。 解决: i:在项目下新建目录/src/main/resource ii:在该目录下新建文件名log4j.properties iii:添加...
2018-12-21 11:24:28
1592
原创 java 学习笔记---序列化
1.序列化 2.代码实操Student 类:package com.bond;import java.io.Serializable;public class Student implements Serializable { private String sno; private String name; // transient 属性使得 age属性不能...
2018-12-06 09:49:33
144
原创 Java 学习笔记---封装,继承,多态
1.封装代码: java 除了setter/getter 方法外,还有其他的访问 2.继承 3.多态 总结: 举例:
2018-11-28 17:47:20
181
原创 Java学习笔记---变量
1.变量 各方法中可定义相同名称的局部变量;局部变量可与成员变量名称相同,取值规则就近原则; 举例:package com.bond;public class Person { //成员变量 String name; int age; char sex='男'; //成员变量localname String localname="HX"; ...
2018-11-27 14:24:32
117
原创 Java 学习笔记---基本数据类型
1.Java 数据类型基本数据类型代码: float 类型数据value 后面加字母f, char 类型数据value 后面需要加单引号;package com.bond;public class Demo { public static void main(String[] args) { // TODO Auto-generated method stub...
2018-11-27 11:34:33
211
原创 Java学习错误集
1.包名不规范问题 报错信息: Exception in thread "main" java.lang.SecurityException: Prohibited package name: java.base at java.lang.ClassLoader.preDefineClass(Unknown Source) at java.lang.ClassLoad...
2018-11-27 11:23:19
282
原创 sqoop import 报错Communications link failure
1.问题描述 sqoop list-tables 工具正常,但是import 工具有问题。奇怪!!!![hadoop@master ~]$ sqoop import --username test --password test --connect jdbc:mysql://172.1.1.96:3306/test -m 1 --delete-target-dir --...
2018-11-08 12:00:49
3139
6
原创 系统Waiting TTFB 时间超长问题-之代码接口访问问题
1.背景 由于工作需要,系统需要复制一套到另外服务,修改数据库配置后,发现系统能登录,但是查询数据很慢,一直以为是新的数据库没有配置好参数,但是后台服务各项指标都正常没有问题。然后就是各种猜想。2.问题发现及解决 首先排查的数据和 服务器,但是各个服务器指标正常,系统压力不大,sql查询也快。 然后就迷茫了。。。 但是看代码时发现有调用第三方系统(公司内部独立系统...
2018-07-18 11:37:14
2471
原创 PHP 编译后安装扩展包
1.phpize 安装 进入源码包扩展目录:[root@d1 pdo_mysql]# cd /usr/local/src/php-5.6.13/ext/pdo_mysql[root@d1 pdo_mysql]# /usr/local/php/bin/phpizeConfiguring for:PHP Api Version: 20131106Zend Module Api...
2018-07-15 01:21:59
452
原创 Excel 函数学习记录
1. excel 总成绩排名 排名规则: 允许并列排名,排名是连续的 --中国式排名=SUMPRODUCT((B$2:B$9>B2)*(1/(COUNTIF(B$2:B$9,B$2:B$9))))+1分解: 1. B$2:B$9>B2 -->boolean 数组{FALSE;FALSE;FALSE;FALSE;FALSE;FALSE;FALSE;FALSE},在B2-B9...
2018-06-22 17:48:48
344
原创 logstash-input-jdbc 同步问题记录
1.同步没有报错,ES没有索引创建[elk@test1 bin]$ ./logstash -f ../data_config/account_1.conf ERROR StatusLogger No log4j2 configuration file found. Using default configuration: logging only errors to the console.S...
2018-05-19 14:04:17
1119
原创 TOM 大师表分析存储过程
1.使用sys 建存储过程CREATE OR REPLACE PROCEDURE "SYS"."SHOW_SPACE" ( p_segname in varchar2, p_owner in varchar2 default user, p_type in varchar2 default 'TABLE', p_partition in varchar2 defau...
2018-05-19 13:57:18
339
原创 Kettle 使用问题集
1. spoon 界面乱码 修改文件/home/kettle/data-integration/spoon.sh 中JVM参数仍然没有用: # ******************************************************************# ** Set java runtime options ...
2018-05-09 10:25:45
712
原创 hadoop 错误记录
1.hive beeline 连接 报错信息:beeline> !connect jdbc:hive2://10.0.1.118:10000/defaultConnecting to jdbc:hive2://10.0.1.118:10000/defaultEnter username for jdbc:hive2://10.0.1.118:10000/default: hadoo...
2018-03-08 16:21:41
236
原创 shell mysql数据实时同步脚本
1. 背景 公司大佬需要报表实时更新,从业务报表同步到数据仓库,可根据需要设置同步时间几个crontab 或者while true,用shell脚本获取增量数据,实时更新,业务系统存在物理删除的场景,这就需要去监控业务库删除操作,自己写了粗糙的脚本。本来是可以用otter 工具同步实现,但是好资源,我们也就只有几张表而已。2. 前提 数据库配置文件:[hxw@test1 Shell]$ cat ...
2018-03-04 15:54:24
6217
原创 Spark Streaming小程序试验-《单词统计》
1. 试验目标 a . 熟悉spark Streaming操作流程(编程-》打包-》程序提交运行-》job运行监控) b. 熟悉spark Streaming 运行,和使用场景有初步了解 c .熟悉Spark Streaming基本编程,对spark函数有初步使用 ,flatMap,map,reduceByKey..2.前提 a . 软件安装: nc(模拟数据实时输入工具),s...
2018-02-09 15:27:14
552
原创 linux sbt-1.1.0 安装
1.软件下载 官网下载:https://www.scala-sbt.org/download.html 下载 sbt-1.1.0.tgz 包(目前最新)。2.安装 安装在/usr/local/sbt目录下 [root@master ~]# mv sbt-1.1.0.tgz /usr/local/[root@master ~]#tar zxvf sbt-1.1.0.tgz [root@...
2018-02-09 00:28:04
2702
2
原创 利用ali OTTER 实时同步业务数据到数据仓库
1.背景 公司要求是某些业务报表达到实时标准,数据量最多的表大概400W+,报表逻辑复杂,计算一年24W数据,整个程个流程下来差不多一个小时,主要时间耗在全量数据同步跟计算上。年后大概实时需求会更多,数据量会更大,各分部数据到会到数据仓库。用脚本增量同步有限制,主要因为业务数据每天定时批量更新,周期是分钟,每次更新至少10W以上,脚本从下载数据到导入数据之后计算,流程复杂,时间太长。所以首...
2018-02-05 00:24:59
5305
原创 logstash-input-jdbc 实时同步mysql数据
1. 版本 Linux 版本:CentOS release 6.5 (Final)JDK版本: java version "1.8.0_102"名称版本号备注Elasticsearch6.1.2最新版本logstash5.5.1logstash选择的版本不需要太新,很难找到匹配的插件版本。logstash-
2018-01-26 10:02:57
2946
原创 hadoop 管理命令dfsadmin
dfsadmin 命令用于管理HDFS集群,这些命令常用于管理员。1. (Safemode)安全模式 动作命令把集群切换到安全模式bin/hdfs dfsadmin -safemode [enter/get/leave]数据节点状态列表bin/hadoop dfsadmin -report添加或删除数据节点bin/hadoop dfsadmin -refreshNodes打印网络拓扑 bin
2018-01-17 18:40:12
10316
原创 Mysql--innoDB locking
1.共享锁和排他锁innodb 实现了标准的行锁:共享锁 和排他锁共享锁(S):允许持有共享锁的事物读取该行排它锁(X):允许持有改锁的事务删除或者更新行 当一个事务T1持有Table1上r行的S 锁时,其他事务想持有该行的锁时,必须按照下面的规则进行: 1):如果事务T2 想获得该行的S锁时,T2可以立即获取。 2):如果事务T2想获得该行的
2017-12-22 10:29:46
299
原创 Mysql binlog 日志
1.介绍mysql binglog 日志记录了mysql 所有操作技能,不包含select,在一些mysql 同步上经常使用binlog同步,这里介绍下binlog日志记录。2.开启binlog2.1 查看是否开启show VARIABLES like '%log_bin%';log_bin:on 开启。2.2 开启方法2.2.1 关闭数据库[root@master mysql]# service
2017-11-08 10:35:33
460
原创 elasticsearch 5.6 安装
1.简介ElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口。Elasticsearch是用Java开发的,并作为Apache许可条款下的开放源码发布,是当前流行的企业级搜索引擎。设计用于云计算中,能够达到实时搜索,稳定,可靠,快速,安装使用方便。2.安装下载:https://www.elastic
2017-11-05 17:48:50
821
原创 kibana5.6 安装配置
1.简介 Kibana是一个开源的分析与可视化平台,设计出来用于和Elasticsearch一起使用的。你可以用kibana搜索、查看、交互存放在Elasticsearch索引里的数据,使用各种不同的图表、表格、地图等kibana能够很轻易地展示高级数据分析与可视化。 Kibana让我们理解大量数据变得很容易。它简单、基于浏览器的接口使你能快速创建和分享实时展现El
2017-11-05 15:35:23
3873
2
原创 elasticsearch 5.4 head 安装
1. 简介elasticsearch-head是一个界面化的集群操作和管理工具,可以对集群进行傻瓜式操作。你可以通过插件把它集成到es(首选方式),也可以安装成一个独立webapp。对于初学者这个工具非常友好,提供了界面管理索引。官方网站:https://github.com/mobz/elasticsearch-head2.安装前准备2.1 安装npm工具下载地址
2017-11-05 15:25:40
808
原创 hbase 启动报错
问题1:2017-11-04 12:01:03,063 INFO [master:16000.activeMasterManager] zookeeper.MetaTableLocator: Failed verification of hbase:meta,,1 at address=slave-1,16020,1509763647585, exception=org.apache.had
2017-11-04 13:43:42
3056
2
原创 hive 访问hbase 表
1.背景大部分同学可能不会用hbase ,或者用hbase 不习惯,但是对sql 却很熟悉,比如要统计表的记录数,用sql 可能知道怎么写,用hbase 可能不知道,或者知道但是很慢,性能有问题等,这时我们可以通过hive 建立与hbase 表的关联关系没映射hbase 表到hive。2.建hive表2.1 hbase 表 hbase 已存在product 表三个
2017-11-03 11:51:08
773
原创 ES 基本使用《四》--索引mapping
1. mapping为了能够将时间域视为时间,数字域视为数字,字符串域视为全文或精确值字符串, Elasticsearch 需要知道每个域中数据的类型。这个信息包含在映射中。索引中每个文档都有 类型 。每种类型都有它自己的 映射 ,或者 模式定义。映射定义了类型中的域,每个域的数据类型,以及Elasticsearch如何处理这些域。映射也用于配置与类型有关的元数据。索引mapping:
2017-10-20 13:54:45
3929
原创 ES 基本使用《三》--terms
1.查找多个精确值 term 查询对于查找单个值非常有用,但通常我们可能想搜索多个值。 如果我们想要查找价格字段值为 $20 或 $30 的文档该如何处理呢?不需要使用多个 term 查询,我们只要用单个 terms 查询(注意末尾的 s ), terms 查询好比是 term 查询的复数形式(以英语名词的单复数做比)。它几乎与 term 的使用方式一模一样,与指定单个
2017-10-19 17:32:15
11157
原创 ES 基本使用《二》--组合过滤
1.组合过滤器 在实际应用中,我们很有可能会过滤多个值或字段。比方说,怎样用 Elasticsearch 来表达下面的 SQL ? SELECT productFROM productsWHERE (price = 20 OR productID = "XHDK-A-1293-#fJ3")AND (price != 30)这种情况下,我们需要 bool (布尔)过滤器
2017-10-19 17:02:09
3157
1
原创 ES 创建索引设置(setting)基础
1.创建索引PUT /my_index{ "settings": { ... any settings ... }, "mappings": { "type_one": { ... any mappings ... }, "type_two": { ... any mappings ... }, ... }}如果你
2017-10-19 16:00:13
33552
原创 ES 基本使用《一》--分析
1. 创建索引PUT /megacorp/employee/1{ "first_name" : "John", "last_name" : "Smith", "age" : 25, "about" : "I love to go rock climbing", "interests": [ "sports", "music"
2017-10-18 15:05:03
875
原创 sqoop-1.4.6 安装及配置
1.环境信息[hadoop@master sqoop-1.4.6]$ cat /etc/redhat-release CentOS Linux release 7.1.1503 (Core) [hadoop@master sqoop-1.4.6]$ [hadoop@master sqoop-1.4.6]$ mysql --versionmysql Ver 14.14 Distrib
2017-09-26 11:12:55
405
原创 hbase 1.2.6 安装
1. 环境信息:Linux 系统: [hadoop@master bin]$ cat /etc/redhat-release CentOS Linux release 7.1.1503 (Core) hosts文件:[root@master ~]# cat /etc/hosts#127.0.0.1 localhost localhost.localdomain loca
2017-09-21 17:19:28
1955
原创 centos 7时间同步方法
自己安装hbase 需要用到时间同步,原来安装的虚拟机时区也不对,这里记顺便记录下,centos 7 下安装时间服务器,修改时区的方法。
2017-09-20 19:07:08
4167
Mapreduce 在windows运行文件
2018-12-21
sqlserver 20018 驱动
2018-10-18
ms sql 驱动包(sqljdbc.jar 和jtds.jar)
2018-05-08
logstash-5.6.3.tar.gz
2017-11-05
ELK 5.6.3 软件包集合(elasticsearch,kibana,filebeat)
2017-11-05
《hadoop实战》第二版中文
2017-09-14
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人