自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

let it go的博客

知识需要记录

  • 博客(46)
  • 资源 (8)
  • 收藏
  • 关注

原创 hive 同步数据到ES

1.相关jar包elasticsearch-hadoop-5.5.1.jar 下载地址:http://download.elastic.co/hadoop/到官网下载与ES一致的版本,比如ES版本是5.5.1,则下载http://download.elastic.co/hadoop/elasticsearch-hadoop-5.5.1.zipjar包就在压缩包dist目录中。2.添加jar包到hive中2.1 放置jar到hadoop 如下是放到hadoop根目录的jars目...

2020-06-20 18:01:16 2149 3

原创 大数据-hive报错记录

1.hive 与es 数据交互报错Diagnostic Messages for this Task:Error: java.lang.RuntimeException: java.lang.NoClassDefFoundError: org/apache/commons/httpclient/HttpConnectionManager at org.apache.hadoop.hive.ql.exec.mr.ExecMapper.map(ExecMapper.java:169)

2020-06-20 17:33:35 723

原创 kettle 宕机后报错

1.报错日志15:51:14,869 ERROR [BlueprintContainerImpl] Unable to start blueprint container for bundle pdi-dataservice-server-plugin due to unresolved dependencies [(objectClass=org.pentaho.metaverse.api...

2019-11-17 21:25:57 2485 1

原创 flume 简介和安装

1.flume 简介 Flume是一种分布式,可靠且可用的服务,用于有效地收集,聚合和移动大量日志数据。它具有基于流数据流的简单灵活的架构。它具有可靠的可靠性机制和许多故障转移和恢复机制,具有强大的容错性。它使用简单的可扩展数据模型,允许在线分析应用程序。2.数据流模型Flume事件被定义为具有字节有效负载和可选字符串属性集的数据流单元。 Flume代理是一个(JVM)进程,...

2019-08-03 11:36:23 390

原创 hadoop mapreduce 编写问题集

1.MapReduce没有日志信息      eclipse 运行MP后没有看到详细的日志信息,只有警告信息,没有跟linux系统一样的的,出现大量过程,资源信息日志。    解决:            i:在项目下新建目录/src/main/resource            ii:在该目录下新建文件名log4j.properties            iii:添加...

2018-12-21 11:24:28 1592

原创 java 学习笔记---序列化

1.序列化  2.代码实操Student 类:package com.bond;import java.io.Serializable;public class Student implements Serializable { private String sno; private String name; // transient 属性使得 age属性不能...

2018-12-06 09:49:33 144

原创 Java 学习笔记---封装,继承,多态

1.封装代码: java 除了setter/getter 方法外,还有其他的访问 2.继承  3.多态  总结:  举例:

2018-11-28 17:47:20 181

原创 Java学习笔记---变量

1.变量 各方法中可定义相同名称的局部变量;局部变量可与成员变量名称相同,取值规则就近原则;  举例:package com.bond;public class Person { //成员变量 String name; int age; char sex='男'; //成员变量localname String localname="HX"; ...

2018-11-27 14:24:32 117

原创 Java 学习笔记---基本数据类型

1.Java 数据类型基本数据类型代码:  float 类型数据value 后面加字母f,  char 类型数据value 后面需要加单引号;package com.bond;public class Demo { public static void main(String[] args) { // TODO Auto-generated method stub...

2018-11-27 11:34:33 211

原创 Java学习错误集

1.包名不规范问题  报错信息:      Exception in thread "main" java.lang.SecurityException: Prohibited package name: java.base at java.lang.ClassLoader.preDefineClass(Unknown Source) at java.lang.ClassLoad...

2018-11-27 11:23:19 282

原创 sqoop import 报错Communications link failure

1.问题描述       sqoop list-tables 工具正常,但是import 工具有问题。奇怪!!!![hadoop@master ~]$ sqoop import --username test --password test --connect jdbc:mysql://172.1.1.96:3306/test -m 1 --delete-target-dir --...

2018-11-08 12:00:49 3139 6

原创 系统Waiting TTFB 时间超长问题-之代码接口访问问题

1.背景 由于工作需要,系统需要复制一套到另外服务,修改数据库配置后,发现系统能登录,但是查询数据很慢,一直以为是新的数据库没有配置好参数,但是后台服务各项指标都正常没有问题。然后就是各种猜想。2.问题发现及解决 首先排查的数据和 服务器,但是各个服务器指标正常,系统压力不大,sql查询也快。 然后就迷茫了。。。 但是看代码时发现有调用第三方系统(公司内部独立系统...

2018-07-18 11:37:14 2471

原创 PHP 编译后安装扩展包

1.phpize 安装  进入源码包扩展目录:[root@d1 pdo_mysql]# cd /usr/local/src/php-5.6.13/ext/pdo_mysql[root@d1 pdo_mysql]# /usr/local/php/bin/phpizeConfiguring for:PHP Api Version:         20131106Zend Module Api...

2018-07-15 01:21:59 452

原创 Excel 函数学习记录

1. excel 总成绩排名   排名规则: 允许并列排名,排名是连续的 --中国式排名=SUMPRODUCT((B$2:B$9>B2)*(1/(COUNTIF(B$2:B$9,B$2:B$9))))+1分解:  1.  B$2:B$9>B2 -->boolean 数组{FALSE;FALSE;FALSE;FALSE;FALSE;FALSE;FALSE;FALSE},在B2-B9...

2018-06-22 17:48:48 344

原创 logstash-input-jdbc 同步问题记录

1.同步没有报错,ES没有索引创建[elk@test1 bin]$ ./logstash -f ../data_config/account_1.conf ERROR StatusLogger No log4j2 configuration file found. Using default configuration: logging only errors to the console.S...

2018-05-19 14:04:17 1119

原创 TOM 大师表分析存储过程

1.使用sys 建存储过程CREATE OR REPLACE PROCEDURE "SYS"."SHOW_SPACE" ( p_segname in varchar2, p_owner in varchar2 default user, p_type in varchar2 default 'TABLE', p_partition in varchar2 defau...

2018-05-19 13:57:18 339

原创 Kettle 使用问题集

1. spoon 界面乱码      修改文件/home/kettle/data-integration/spoon.sh 中JVM参数仍然没有用:    # ******************************************************************# ** Set java runtime options ...

2018-05-09 10:25:45 712

原创 hadoop 错误记录

1.hive beeline 连接    报错信息:beeline> !connect jdbc:hive2://10.0.1.118:10000/defaultConnecting to jdbc:hive2://10.0.1.118:10000/defaultEnter username for jdbc:hive2://10.0.1.118:10000/default: hadoo...

2018-03-08 16:21:41 236

原创 shell mysql数据实时同步脚本

1. 背景  公司大佬需要报表实时更新,从业务报表同步到数据仓库,可根据需要设置同步时间几个crontab 或者while true,用shell脚本获取增量数据,实时更新,业务系统存在物理删除的场景,这就需要去监控业务库删除操作,自己写了粗糙的脚本。本来是可以用otter 工具同步实现,但是好资源,我们也就只有几张表而已。2. 前提 数据库配置文件:[hxw@test1 Shell]$ cat ...

2018-03-04 15:54:24 6217

原创 Spark Streaming小程序试验-《单词统计》

1. 试验目标    a . 熟悉spark Streaming操作流程(编程-》打包-》程序提交运行-》job运行监控)    b. 熟悉spark Streaming 运行,和使用场景有初步了解    c .熟悉Spark Streaming基本编程,对spark函数有初步使用 ,flatMap,map,reduceByKey..2.前提 a . 软件安装:  nc(模拟数据实时输入工具),s...

2018-02-09 15:27:14 552

原创 linux sbt-1.1.0 安装

1.软件下载  官网下载:https://www.scala-sbt.org/download.html 下载 sbt-1.1.0.tgz 包(目前最新)。2.安装   安装在/usr/local/sbt目录下   [root@master ~]# mv sbt-1.1.0.tgz /usr/local/[root@master ~]#tar zxvf sbt-1.1.0.tgz [root@...

2018-02-09 00:28:04 2702 2

原创 利用ali OTTER 实时同步业务数据到数据仓库

1.背景     公司要求是某些业务报表达到实时标准,数据量最多的表大概400W+,报表逻辑复杂,计算一年24W数据,整个程个流程下来差不多一个小时,主要时间耗在全量数据同步跟计算上。年后大概实时需求会更多,数据量会更大,各分部数据到会到数据仓库。用脚本增量同步有限制,主要因为业务数据每天定时批量更新,周期是分钟,每次更新至少10W以上,脚本从下载数据到导入数据之后计算,流程复杂,时间太长。所以首...

2018-02-05 00:24:59 5305

原创 logstash-input-jdbc 实时同步mysql数据

1. 版本 Linux 版本:CentOS release 6.5 (Final)JDK版本: java version "1.8.0_102"名称版本号备注Elasticsearch6.1.2最新版本logstash5.5.1logstash选择的版本不需要太新,很难找到匹配的插件版本。logstash-

2018-01-26 10:02:57 2946

原创 hadoop 管理命令dfsadmin

dfsadmin 命令用于管理HDFS集群,这些命令常用于管理员。1. (Safemode)安全模式    动作命令把集群切换到安全模式bin/hdfs dfsadmin -safemode [enter/get/leave]数据节点状态列表bin/hadoop dfsadmin -report添加或删除数据节点bin/hadoop dfsadmin -refreshNodes打印网络拓扑 bin

2018-01-17 18:40:12 10316

原创 Mysql--innoDB locking

1.共享锁和排他锁innodb 实现了标准的行锁:共享锁 和排他锁共享锁(S):允许持有共享锁的事物读取该行排它锁(X):允许持有改锁的事务删除或者更新行      当一个事务T1持有Table1上r行的S 锁时,其他事务想持有该行的锁时,必须按照下面的规则进行:      1):如果事务T2 想获得该行的S锁时,T2可以立即获取。      2):如果事务T2想获得该行的

2017-12-22 10:29:46 299

原创 Mysql binlog 日志

1.介绍mysql binglog 日志记录了mysql 所有操作技能,不包含select,在一些mysql 同步上经常使用binlog同步,这里介绍下binlog日志记录。2.开启binlog2.1 查看是否开启show VARIABLES like '%log_bin%';log_bin:on 开启。2.2 开启方法2.2.1 关闭数据库[root@master mysql]# service

2017-11-08 10:35:33 460

原创 elasticsearch 5.6 安装

1.简介ElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口。Elasticsearch是用Java开发的,并作为Apache许可条款下的开放源码发布,是当前流行的企业级搜索引擎。设计用于云计算中,能够达到实时搜索,稳定,可靠,快速,安装使用方便。2.安装下载:https://www.elastic

2017-11-05 17:48:50 821

原创 kibana5.6 安装配置

1.简介    Kibana是一个开源的分析与可视化平台,设计出来用于和Elasticsearch一起使用的。你可以用kibana搜索、查看、交互存放在Elasticsearch索引里的数据,使用各种不同的图表、表格、地图等kibana能够很轻易地展示高级数据分析与可视化。    Kibana让我们理解大量数据变得很容易。它简单、基于浏览器的接口使你能快速创建和分享实时展现El

2017-11-05 15:35:23 3873 2

原创 elasticsearch 5.4 head 安装

1. 简介elasticsearch-head是一个界面化的集群操作和管理工具,可以对集群进行傻瓜式操作。你可以通过插件把它集成到es(首选方式),也可以安装成一个独立webapp。对于初学者这个工具非常友好,提供了界面管理索引。官方网站:https://github.com/mobz/elasticsearch-head2.安装前准备2.1 安装npm工具下载地址

2017-11-05 15:25:40 808

原创 hbase 启动报错

问题1:2017-11-04 12:01:03,063 INFO  [master:16000.activeMasterManager] zookeeper.MetaTableLocator: Failed verification of hbase:meta,,1 at address=slave-1,16020,1509763647585, exception=org.apache.had

2017-11-04 13:43:42 3056 2

原创 hive 访问hbase 表

1.背景大部分同学可能不会用hbase ,或者用hbase 不习惯,但是对sql 却很熟悉,比如要统计表的记录数,用sql 可能知道怎么写,用hbase 可能不知道,或者知道但是很慢,性能有问题等,这时我们可以通过hive 建立与hbase 表的关联关系没映射hbase 表到hive。2.建hive表2.1 hbase 表  hbase 已存在product 表三个

2017-11-03 11:51:08 773

原创 ES 基本使用《四》--索引mapping

1. mapping为了能够将时间域视为时间,数字域视为数字,字符串域视为全文或精确值字符串, Elasticsearch 需要知道每个域中数据的类型。这个信息包含在映射中。索引中每个文档都有 类型 。每种类型都有它自己的 映射 ,或者 模式定义。映射定义了类型中的域,每个域的数据类型,以及Elasticsearch如何处理这些域。映射也用于配置与类型有关的元数据。索引mapping:

2017-10-20 13:54:45 3929

原创 ES 基本使用《三》--terms

1.查找多个精确值 term 查询对于查找单个值非常有用,但通常我们可能想搜索多个值。 如果我们想要查找价格字段值为 $20 或 $30 的文档该如何处理呢?不需要使用多个 term 查询,我们只要用单个 terms 查询(注意末尾的 s ), terms 查询好比是 term 查询的复数形式(以英语名词的单复数做比)。它几乎与 term 的使用方式一模一样,与指定单个

2017-10-19 17:32:15 11157

原创 ES 基本使用《二》--组合过滤

1.组合过滤器 在实际应用中,我们很有可能会过滤多个值或字段。比方说,怎样用 Elasticsearch 来表达下面的 SQL ? SELECT productFROM productsWHERE (price = 20 OR productID = "XHDK-A-1293-#fJ3")AND (price != 30)这种情况下,我们需要 bool (布尔)过滤器

2017-10-19 17:02:09 3157 1

原创 ES 创建索引设置(setting)基础

1.创建索引PUT /my_index{ "settings": { ... any settings ... }, "mappings": { "type_one": { ... any mappings ... }, "type_two": { ... any mappings ... }, ... }}如果你

2017-10-19 16:00:13 33552

原创 ES 基本使用《一》--分析

1. 创建索引PUT /megacorp/employee/1{ "first_name" : "John", "last_name" : "Smith", "age" : 25, "about" : "I love to go rock climbing", "interests": [ "sports", "music"

2017-10-18 15:05:03 875

原创 sqoop-1.4.6 安装及配置

1.环境信息[hadoop@master sqoop-1.4.6]$ cat /etc/redhat-release CentOS Linux release 7.1.1503 (Core) [hadoop@master sqoop-1.4.6]$ [hadoop@master sqoop-1.4.6]$ mysql --versionmysql Ver 14.14 Distrib

2017-09-26 11:12:55 405

原创 hbase shell状态下回退键设置(scureCRT)

1.选项-》会话选项2. 勾选hbase shell 即可用正常删除!

2017-09-23 14:10:23 441

原创 hbase 1.2.6 安装

1. 环境信息:Linux 系统: [hadoop@master bin]$ cat /etc/redhat-release CentOS Linux release 7.1.1503 (Core) hosts文件:[root@master ~]# cat /etc/hosts#127.0.0.1 localhost localhost.localdomain loca

2017-09-21 17:19:28 1955

原创 centos 7时间同步方法

自己安装hbase 需要用到时间同步,原来安装的虚拟机时区也不对,这里记顺便记录下,centos 7 下安装时间服务器,修改时区的方法。

2017-09-20 19:07:08 4167

Mapreduce 在windows运行文件

包中含有hadoop-eclipse-plugin-2.6.0.jar ,hadoop.dll,winutils.exe 三个文件,是windows 运行mapreduce 的配置文件。hadoop2.8.1亲测可用

2018-12-21

中文版JDK 1.6 ,1.8 api文档合集

JDK 1.6 中文API CHM版,1.8 中文API CHM版。

2018-12-04

sqlserver 20018 驱动

sqlserver 各种驱动下载网址,kettel 7.1 sqlserver 2008 native 驱动下载(sqljdbc4-2.0.jar),解决Driver class 'com.microsoft.sqlserver.jdbc.SQLServerDriver' could not be found, make sure the 'MS SQL Server (Native)' driver (jar file) is installed. com.microsoft.sqlserver.jdbc.SQLServerDriver问下,下载驱动,放入lib文件夹即可

2018-10-18

ms sql 驱动包(sqljdbc.jar 和jtds.jar)

linux 下kettle 连接sql server 必须要驱动包,MS SQL Server(Native) 对应sqljdbc.jar,MS SQL Server 对应jtds.jar 包。

2018-05-08

logstash-5.6.3.tar.gz

logstash-5.6.3.tar.gz ,kibanna测试数据accounts.zip,shakespeare.json,logs.jsonl.gz

2017-11-05

ELK 5.6.3 软件包集合(elasticsearch,kibana,filebeat)

包含elasticsearch-5.6.3.tar.gz,filebeat-5.6.3-linux-x86_64.tar.gz,kibana-5.6.3-linux-x86_64.tar.gz,logstsah 太大,在另外一个资源包内。

2017-11-05

《hadoop实战》第二版中文

作为云计算所青睐的分布式架构,Hadoop是一个用Java语言实现的软件框架,在由大量计算机组成的集群中运行海量数据的分布式计算,是谷歌实现云计算的重要基石。《Hadoop实战》分为3个部分,深入浅出地介绍了Hadoop框架、编写和运行Hadoop数据处理程序所需的实践技能及Hadoop之外更大的生态系统。  《Hadoop实战》适合需要处理大量离线数据的云计算程序员、架构师和项目经理阅读参考。

2017-09-14

pdksh-5.2.14

linux 软件包 pdksh-5.2.14

2013-04-17

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除