jjshouji-CSDN博客

原创 hive 同步数据到ES

1.相关jar包elasticsearch-hadoop-5.5.1.jar 下载地址：http://download.elastic.co/hadoop/到官网下载与ES一致的版本，比如ES版本是5.5.1，则下载http://download.elastic.co/hadoop/elasticsearch-hadoop-5.5.1.zipjar包就在压缩包dist目录中。2.添加jar包到hive中2.1 放置jar到hadoop 如下是放到hadoop根目录的jars目...

2020-06-20 18:01:16 2419 3

原创大数据-hive报错记录

1.hive 与es 数据交互报错Diagnostic Messages for this Task:Error: java.lang.RuntimeException: java.lang.NoClassDefFoundError: org/apache/commons/httpclient/HttpConnectionManager at org.apache.hadoop.hive.ql.exec.mr.ExecMapper.map(ExecMapper.java:169)

2020-06-20 17:33:35 832

原创 kettle 宕机后报错

1.报错日志15:51:14,869 ERROR [BlueprintContainerImpl] Unable to start blueprint container for bundle pdi-dataservice-server-plugin due to unresolved dependencies [(objectClass=org.pentaho.metaverse.api...

2019-11-17 21:25:57 2914 1

原创 flume 简介和安装

1.flume 简介 Flume是一种分布式，可靠且可用的服务，用于有效地收集，聚合和移动大量日志数据。它具有基于流数据流的简单灵活的架构。它具有可靠的可靠性机制和许多故障转移和恢复机制，具有强大的容错性。它使用简单的可扩展数据模型，允许在线分析应用程序。2.数据流模型Flume事件被定义为具有字节有效负载和可选字符串属性集的数据流单元。 Flume代理是一个（JVM）进程，...

2019-08-03 11:36:23 522

原创 hadoop mapreduce 编写问题集

1.MapReduce没有日志信息 eclipse 运行MP后没有看到详细的日志信息，只有警告信息，没有跟linux系统一样的的，出现大量过程，资源信息日志。解决： i:在项目下新建目录/src/main/resource ii:在该目录下新建文件名log4j.properties iii:添加...

2018-12-21 11:24:28 1761

原创 java 学习笔记---序列化

1.序列化 2.代码实操Student 类：package com.bond;import java.io.Serializable;public class Student implements Serializable { private String sno; private String name; // transient 属性使得 age属性不能...

2018-12-06 09:49:33 226

原创 Java 学习笔记---封装，继承，多态

1.封装代码： java 除了setter/getter 方法外，还有其他的访问 2.继承 3.多态总结：举例：

2018-11-28 17:47:20 257

原创 Java学习笔记---变量

1.变量各方法中可定义相同名称的局部变量；局部变量可与成员变量名称相同，取值规则就近原则；举例：package com.bond;public class Person { //成员变量 String name; int age; char sex='男'; //成员变量localname String localname="HX"; ...

2018-11-27 14:24:32 179

原创 Java 学习笔记---基本数据类型

1.Java 数据类型基本数据类型代码： float 类型数据value 后面加字母f, char 类型数据value 后面需要加单引号；package com.bond;public class Demo { public static void main(String[] args) { // TODO Auto-generated method stub...

2018-11-27 11:34:33 290

原创 Java学习错误集

1.包名不规范问题报错信息： Exception in thread "main" java.lang.SecurityException: Prohibited package name: java.base at java.lang.ClassLoader.preDefineClass(Unknown Source) at java.lang.ClassLoad...

2018-11-27 11:23:19 383

原创 sqoop import 报错Communications link failure

1.问题描述 sqoop list-tables 工具正常，但是import 工具有问题。奇怪！！！！[hadoop@master ~]$ sqoop import --username test --password test --connect jdbc:mysql://172.1.1.96:3306/test -m 1 --delete-target-dir --...

2018-11-08 12:00:49 3396 6

原创系统Waiting TTFB 时间超长问题-之代码接口访问问题

1.背景由于工作需要，系统需要复制一套到另外服务，修改数据库配置后，发现系统能登录，但是查询数据很慢，一直以为是新的数据库没有配置好参数，但是后台服务各项指标都正常没有问题。然后就是各种猜想。2.问题发现及解决首先排查的数据和服务器，但是各个服务器指标正常，系统压力不大，sql查询也快。然后就迷茫了。。。但是看代码时发现有调用第三方系统（公司内部独立系统...

2018-07-18 11:37:14 2577

原创 PHP 编译后安装扩展包

1.phpize 安装进入源码包扩展目录：[root@d1 pdo_mysql]# cd /usr/local/src/php-5.6.13/ext/pdo_mysql[root@d1 pdo_mysql]# /usr/local/php/bin/phpizeConfiguring for:PHP Api Version: 20131106Zend Module Api...

2018-07-15 01:21:59 536

原创 Excel 函数学习记录

1. excel 总成绩排名排名规则：允许并列排名，排名是连续的 --中国式排名=SUMPRODUCT((B$2:B$9>B2)*(1/(COUNTIF(B$2:B$9,B$2:B$9))))+1分解： 1. B$2:B$9>B2 -->boolean 数组{FALSE;FALSE;FALSE;FALSE;FALSE;FALSE;FALSE;FALSE}，在B2-B9...

2018-06-22 17:48:48 531

原创 logstash-input-jdbc 同步问题记录

1.同步没有报错，ES没有索引创建[elk@test1 bin]$ ./logstash -f ../data_config/account_1.conf ERROR StatusLogger No log4j2 configuration file found. Using default configuration: logging only errors to the console.S...

2018-05-19 14:04:17 1220

原创 TOM 大师表分析存储过程

1.使用sys 建存储过程CREATE OR REPLACE PROCEDURE "SYS"."SHOW_SPACE" ( p_segname in varchar2, p_owner in varchar2 default user, p_type in varchar2 default 'TABLE', p_partition in varchar2 defau...

2018-05-19 13:57:18 432

原创 Kettle 使用问题集

1. spoon 界面乱码修改文件/home/kettle/data-integration/spoon.sh 中JVM参数仍然没有用： # ******************************************************************# ** Set java runtime options ...

2018-05-09 10:25:45 833

原创 hadoop 错误记录

1.hive beeline 连接报错信息：beeline> !connect jdbc:hive2://10.0.1.118:10000/defaultConnecting to jdbc:hive2://10.0.1.118:10000/defaultEnter username for jdbc:hive2://10.0.1.118:10000/default: hadoo...

2018-03-08 16:21:41 357

原创 shell mysql数据实时同步脚本

1. 背景公司大佬需要报表实时更新，从业务报表同步到数据仓库，可根据需要设置同步时间几个crontab 或者while true,用shell脚本获取增量数据，实时更新，业务系统存在物理删除的场景，这就需要去监控业务库删除操作，自己写了粗糙的脚本。本来是可以用otter 工具同步实现，但是好资源，我们也就只有几张表而已。2. 前提数据库配置文件：[hxw@test1 Shell]$ cat ...

2018-03-04 15:54:24 6413

原创 Spark Streaming小程序试验-《单词统计》

1. 试验目标 a . 熟悉spark Streaming操作流程（编程-》打包-》程序提交运行-》job运行监控） b. 熟悉spark Streaming 运行，和使用场景有初步了解 c .熟悉Spark Streaming基本编程，对spark函数有初步使用，flatMap,map,reduceByKey..2.前提 a . 软件安装： nc（模拟数据实时输入工具），s...

2018-02-09 15:27:14 706

原创 linux sbt-1.1.0 安装

1.软件下载官网下载：https://www.scala-sbt.org/download.html 下载 sbt-1.1.0.tgz 包(目前最新)。2.安装安装在/usr/local/sbt目录下 [root@master ~]# mv sbt-1.1.0.tgz /usr/local/[root@master ~]#tar zxvf sbt-1.1.0.tgz [root@...

2018-02-09 00:28:04 2836

原创利用ali OTTER 实时同步业务数据到数据仓库

1.背景公司要求是某些业务报表达到实时标准，数据量最多的表大概400W+,报表逻辑复杂，计算一年24W数据，整个程个流程下来差不多一个小时，主要时间耗在全量数据同步跟计算上。年后大概实时需求会更多，数据量会更大，各分部数据到会到数据仓库。用脚本增量同步有限制，主要因为业务数据每天定时批量更新，周期是分钟，每次更新至少10W以上，脚本从下载数据到导入数据之后计算，流程复杂，时间太长。所以首...

2018-02-05 00:24:59 5497

原创 logstash-input-jdbc 实时同步mysql数据

1. 版本 Linux 版本：CentOS release 6.5 (Final)JDK版本： java version "1.8.0_102"名称版本号备注Elasticsearch6.1.2最新版本logstash5.5.1logstash选择的版本不需要太新，很难找到匹配的插件版本。logstash-

2018-01-26 10:02:57 3059

原创 hadoop 管理命令dfsadmin

dfsadmin 命令用于管理HDFS集群，这些命令常用于管理员。1. （Safemode）安全模式动作命令把集群切换到安全模式bin/hdfs dfsadmin -safemode [enter/get/leave]数据节点状态列表bin/hadoop dfsadmin -report添加或删除数据节点bin/hadoop dfsadmin -refreshNodes打印网络拓扑 bin

2018-01-17 18:40:12 10761

原创 Mysql--innoDB locking

1.共享锁和排他锁innodb 实现了标准的行锁：共享锁和排他锁共享锁(S)：允许持有共享锁的事物读取该行排它锁(X)：允许持有改锁的事务删除或者更新行当一个事务T1持有Table1上r行的S 锁时，其他事务想持有该行的锁时，必须按照下面的规则进行： 1）：如果事务T2 想获得该行的S锁时，T2可以立即获取。 2）：如果事务T2想获得该行的

2017-12-22 10:29:46 396

原创 Mysql binlog 日志

1.介绍mysql binglog 日志记录了mysql 所有操作技能，不包含select，在一些mysql 同步上经常使用binlog同步，这里介绍下binlog日志记录。2.开启binlog2.1 查看是否开启show VARIABLES like '%log_bin%';log_bin：on 开启。2.2 开启方法2.2.1 关闭数据库[root@master mysql]# service

2017-11-08 10:35:33 584

原创 elasticsearch 5.6 安装

1.简介ElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎，基于RESTful web接口。Elasticsearch是用Java开发的，并作为Apache许可条款下的开放源码发布，是当前流行的企业级搜索引擎。设计用于云计算中，能够达到实时搜索，稳定，可靠，快速，安装使用方便。2.安装下载：https://www.elastic

2017-11-05 17:48:50 986

原创 kibana5.6 安装配置

1.简介 Kibana是一个开源的分析与可视化平台，设计出来用于和Elasticsearch一起使用的。你可以用kibana搜索、查看、交互存放在Elasticsearch索引里的数据，使用各种不同的图表、表格、地图等kibana能够很轻易地展示高级数据分析与可视化。 Kibana让我们理解大量数据变得很容易。它简单、基于浏览器的接口使你能快速创建和分享实时展现El

2017-11-05 15:35:23 4027 2

原创 elasticsearch 5.4 head 安装

1. 简介elasticsearch-head是一个界面化的集群操作和管理工具，可以对集群进行傻瓜式操作。你可以通过插件把它集成到es（首选方式）,也可以安装成一个独立webapp。对于初学者这个工具非常友好，提供了界面管理索引。官方网站：https://github.com/mobz/elasticsearch-head2.安装前准备2.1 安装npm工具下载地址

2017-11-05 15:25:40 894

原创 hbase 启动报错

问题1：2017-11-04 12:01:03,063 INFO [master:16000.activeMasterManager] zookeeper.MetaTableLocator: Failed verification of hbase:meta,,1 at address=slave-1,16020,1509763647585, exception=org.apache.had

2017-11-04 13:43:42 3330 2

原创 hive 访问hbase 表

1.背景大部分同学可能不会用hbase ，或者用hbase 不习惯，但是对sql 却很熟悉，比如要统计表的记录数，用sql 可能知道怎么写，用hbase 可能不知道，或者知道但是很慢，性能有问题等，这时我们可以通过hive 建立与hbase 表的关联关系没映射hbase 表到hive。2.建hive表2.1 hbase 表 hbase 已存在product 表三个

2017-11-03 11:51:08 913

原创 ES 基本使用《四》--索引mapping

1. mapping为了能够将时间域视为时间，数字域视为数字，字符串域视为全文或精确值字符串， Elasticsearch 需要知道每个域中数据的类型。这个信息包含在映射中。索引中每个文档都有类型。每种类型都有它自己的映射，或者模式定义。映射定义了类型中的域，每个域的数据类型，以及Elasticsearch如何处理这些域。映射也用于配置与类型有关的元数据。索引mapping：

2017-10-20 13:54:45 4085

原创 ES 基本使用《三》--terms

1.查找多个精确值 term 查询对于查找单个值非常有用，但通常我们可能想搜索多个值。如果我们想要查找价格字段值为 $20 或 $30 的文档该如何处理呢？不需要使用多个 term 查询，我们只要用单个 terms 查询（注意末尾的 s ）， terms 查询好比是 term 查询的复数形式（以英语名词的单复数做比）。它几乎与 term 的使用方式一模一样，与指定单个

2017-10-19 17:32:15 11396

原创 ES 基本使用《二》--组合过滤

1.组合过滤器在实际应用中，我们很有可能会过滤多个值或字段。比方说，怎样用 Elasticsearch 来表达下面的 SQL ？ SELECT productFROM productsWHERE (price = 20 OR productID = "XHDK-A-1293-#fJ3")AND (price != 30)这种情况下，我们需要 bool （布尔）过滤器

2017-10-19 17:02:09 3272 1

原创 ES 创建索引设置（setting）基础

1.创建索引PUT /my_index{ "settings": { ... any settings ... }, "mappings": { "type_one": { ... any mappings ... }, "type_two": { ... any mappings ... }, ... }}如果你

2017-10-19 16:00:13 34040

原创 ES 基本使用《一》--分析

1. 创建索引PUT /megacorp/employee/1{ "first_name" : "John", "last_name" : "Smith", "age" : 25, "about" : "I love to go rock climbing", "interests": [ "sports", "music"

2017-10-18 15:05:03 963

原创 sqoop-1.4.6 安装及配置

1.环境信息[hadoop@master sqoop-1.4.6]$ cat /etc/redhat-release CentOS Linux release 7.1.1503 (Core) [hadoop@master sqoop-1.4.6]$ [hadoop@master sqoop-1.4.6]$ mysql --versionmysql Ver 14.14 Distrib

2017-09-26 11:12:55 534

原创 hbase shell状态下回退键设置（scureCRT）

1.选项-》会话选项2. 勾选hbase shell 即可用正常删除！

2017-09-23 14:10:23 535

原创 hbase 1.2.6 安装

1. 环境信息：Linux 系统： [hadoop@master bin]$ cat /etc/redhat-release CentOS Linux release 7.1.1503 (Core) hosts文件：[root@master ~]# cat /etc/hosts#127.0.0.1 localhost localhost.localdomain loca

2017-09-21 17:19:28 2112

原创 centos 7时间同步方法

自己安装hbase 需要用到时间同步，原来安装的虚拟机时区也不对，这里记顺便记录下，centos 7 下安装时间服务器，修改时区的方法。

2017-09-20 19:07:08 4380

ms sql 驱动包（sqljdbc.jar 和jtds.jar）

linux 下kettle 连接sql server 必须要驱动包，MS SQL Server(Native) 对应sqljdbc.jar,MS SQL Server 对应jtds.jar 包。

2018-05-08

ELK 5.6.3 软件包集合（elasticsearch，kibana，filebeat）

包含elasticsearch-5.6.3.tar.gz，filebeat-5.6.3-linux-x86_64.tar.gz，kibana-5.6.3-linux-x86_64.tar.gz，logstsah 太大，在另外一个资源包内。

2017-11-05

Mapreduce 在windows运行文件

包中含有hadoop-eclipse-plugin-2.6.0.jar ，hadoop.dll，winutils.exe 三个文件，是windows 运行mapreduce 的配置文件。hadoop2.8.1亲测可用

2018-12-21

logstash-5.6.3.tar.gz

logstash-5.6.3.tar.gz ，kibanna测试数据accounts.zip，shakespeare.json，logs.jsonl.gz

2017-11-05

sqlserver 20018 驱动

sqlserver 各种驱动下载网址，kettel 7.1 sqlserver 2008 native 驱动下载（sqljdbc4-2.0.jar），解决Driver class 'com.microsoft.sqlserver.jdbc.SQLServerDriver' could not be found, make sure the 'MS SQL Server (Native)' driver (jar file) is installed. com.microsoft.sqlserver.jdbc.SQLServerDriver问下，下载驱动，放入lib文件夹即可

2018-10-18

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人