2018年11月_RayBreslin

12月 11月 10月 09月

原创 HBase(6)：热点与表的设计原则

一、热点问题1.热点问题描述某一时间段内客户端并发读写操做集中在某一个region上或者某一台regionserver上，导致region或者regionserver的负载压力过大，是其他的好几倍，就造成热点问题。针对rowkey某个范围的比较，造成压力过大，浪费集群资源2.解决：预分区，一开始创建表时就指定有多少个region（a）create 't1', 'f1', SPLI...

2018-11-29 23:36:05 231

原创 HBase(5)：分布式hbase部署

一、准备工作1.准备完全分布式的hadoop环境2.准备完全分布式的zk环境3.节点的时间都要同步好4.ssh配置好二、安装和配置cdh版本1.hbase解压缩到app目录下tar -zxvf hbase-0.98.6-cdh5.3.6.tar.gz -C /opt/app/ 2.修改hbase-env.sh、hbase-site.xml、regionservers ...

2018-11-29 20:57:31 192

原创 HBase(4)：HBase操作JAVA API

一、功能通过JAVA API实现数据库的创建表、删除表以及增删改查基本操作。二、配置1.Maven依赖 <repositories> <repository> <id>cloudera</id> <url>https://repository.cloudera.com/artifactory/cloude...

2018-11-29 07:44:30 461

原创 HBase(4)：HBase读写流程

1.hbase读写流程（1）读流程：根据表名称和rowkey(start-end)找到对应region -》在zk中存储了meta的region信息，从zk中获取相应的region信息 -》找到对应的regionserver -》找到region （2）写流程：根据表名称和rowkey(start-end)找到对应region -》在zk中存储了met...

2018-11-28 20:51:55 484

原创 HBase(3)：内部机制flush & compact & split

1.实现功能当向hbase数据库中存储数据的时候，实际存储过程是有三个阶段：flush & compact & split。 2.分步说明（1）flush Client写入 -> 存入MemStore，一直到MemStore满(Hlog)-> Flush成一个StoreFile存储在HDFS上（2）compact ...

2018-11-27 23:36:48 618

原创 HBase(2)：hbase物理模型结构

一.物理结构图二.关键概念1.存储单元Cell（1）存储单元cell：rowkey+列簇+timestamp+version，确定一个单元格的值（2）数据无类型，以字节码的形式进行存储2.Region（1）列分割：table中所有的行都是按照字典序进行排列，可以在行的方向分割为多个region（2）region是hbase中分布式存储和负载均衡的最小单元，存储的最小...

2018-11-27 23:30:58 622

原创 HBase(1)：shell基本命令

一.功能实现使用shell基本命令，进行hbase数据库操作二.环境准备1.开启hdfs2.开启zk3.开启regionser和master三.基本Hbase操作1.hbase namespace(1)创建namespacecreate_namespace 'ns1'create_namespace 'nstest'(2)展示namespaceli...

2018-11-27 23:16:00 705

原创 flume报错：Space for commit to queue couldn‘t be acquired. Sinks are likely not keeping up with sources

1.问题描述自己采用flume监控log文件，结果报错2018-11-26 19:32:04,687 (pool-5-thread-1) [ERROR - org.apache.flume.source.ExecSource$ExecRunnable.run(ExecSource.java:353)] Failed while running command: tail -F /opt/...

2018-11-26 23:10:06 2701 2

转载 maven如何引入依赖的时候去除其中某个jar包？（转）

转自：http://www.cnblogs.com/apache-x/p/5674028.htmlmaven项目，去除jar包中的不想要的依赖关系解释：就是说项目中要用到某一个a.jar包，通过maven引入了之后，也自动的导入了该jar包所依赖的包，这里就会存在一个问题，如果a.jar包依赖b.jar这个项目的1.0版本，可是我的项目中已经有b.jar这个项目2.0的版本了，这里就...

2018-11-26 20:28:31 8080

原创 Maven（二）：打包方法

1.功能将项目打jar包，从而可以在不同环境下运行。2.步骤（1）打开cmd（注意，win10的powershell有些不兼容，最好用cmd）（2）进入项目根目录e:cd Tools\WorkspaceforMyeclipse\WebSpring（3）运行 mvn clean package -DskipTests结果：[INFO] --- maven-sur...

2018-11-25 23:15:30 219

原创 SpringBoot莫名报错：Failed to start component [StandardEngine[Tomcat].StandardHost[localhost].TomcatEmbed

1.问题描述启动spring boot项目，但是报错： . ____ _ __ _ _ /\\ / ___'_ __ _ _(_)_ __ __ _ \ \ \ \( ( )\___ | '_ | '_| | '_ \/ _` | \ \ \ \ \\/ ___)| |_)| | | | | || (_| | ) ) ) ) ...

2018-11-25 17:55:22 37826 23

原创 idae运行spark代码报错ERROR MetricsSystem: Sink class org.apache.spark.metrics.sink.MetricsServlet cannot b

1.问题描述在idea中编写，streaming处理服务器socket传递的数据，结果报错："C:\Program Files\Java\jdk1.8.0_91\bin\java" -Didea.launcher.port=7534 "-Didea.launcher.bin.path=C:\Program Files (x86)\JetBrains\IntelliJ IDEA 2016....

2018-11-25 11:13:07 3218 1

原创 HBase：java api连接hbase报错 ERROR AsyncProcess: Failed to get region location

1.问题描述JavaAPI操作HBase数据库报错如下，经检查，HBase本身没有问题，可以创建以及添加数据。但是javaapi就是连接不上去，坑了两天没有思路。该式的方法都试了，centos和windows的hosts都配置了对应的域名，但是就是连接不上去。18/11/23 07:31:53 INFO ZooKeeper: Client environment:java.io.tmpd...

2018-11-24 15:26:49 9871 3

原创 IDEA（4）:Maven-CDH版本hadoop添加pom的依赖【重要】

1.添加cdh的repositories<repositories> <repository> <id>cloudera</id> <url>https://repository.cloudera.com/artifactory/cloudera-repos/</url> ...

2018-11-24 15:06:07 3533

原创 Streaming消费kafka信息ERROR：没有消费消息， WARN ClientUtils$: Fetching topic metadata with correlation id 0 for

1.问题描述kafka自己的consumer可以消费，但是使用Streaming的API消费kafka消息，就没有消费记录，同时控制界面上显示信息：18/11/22 18:07:26 INFO SyncProducer: Connected to localhost:9092 for producing18/11/22 18:07:26 INFO SyncProducer: Disco...

2018-11-24 15:04:44 1197 1

原创 Streaming消费kafka报错：java.lang.NoClassDefFoundError: net/jpountz/util/SafeUtils

1.问题描述Streaming消费kafka消息，报以下错误：18/11/22 18:14:55 ERROR Executor: Exception in task 0.0 in stage 14.0 (TID 9)java.lang.NoClassDefFoundError: net/jpountz/util/SafeUtils at org.apache.spark.io.LZ4...

2018-11-24 15:04:35 1862

原创 IDEA（3）：新建java源码文件

1.在src.main下面新建java文件夹2.将java文件夹选中，点击project structure3.选中相应文件夹，选择sources，即可！

2018-11-24 06:27:44 445

原创 IDEA（2）：MAVEN项目pom文件基本修改

1.修改properties（1）设置scala为对应版本 <properties> <scala.version>2.11.8</scala.version> </properties>2.删除不必要的配置（1）repositories <repositories> <reposito...

2018-11-24 06:27:00 3151

原创 IDEA（1）：创建Scala的MAVEN项目步骤

一、创建项目1.新建project2.选择scala-archetype-simple结构3.设置三要素GroupId、ArtifactId和Version4.选择本地Maven仓库5.修改项目名称，点击finish6.最终项目结构二、修改pom文件1.添加scala依赖 <dependency> <...

2018-11-24 06:26:16 2669

原创 flume连接kafka报错 Excessively large list allocation request detected: 1818583411 items! Connection clos

1.问题描述：flume然后sinkTokafka，flume是1.6.0然后kafka是0.8.2.1。flume和kafka自测都没有问题，但是flumeTokafka就会：2018-11-21 01:09:16,119 (lifecycleSupervisor-1-1) [INFO - kafka.utils.Logging$class.info(Logging.scala:68)...

2018-11-21 21:08:42 2177

原创 spark2.1.0编译 cdh5.7.0版本

一、实现目标从spark官网下载2.1.0的源码，然后编译对应hadoop版本的spark，从而可以解决很多兼容性问题，使程序运行环境更加优越，顺畅。二、环境准备1.硬件无论云主机还是虚拟机，内存一定要4G以上，最好8G+。2.软件（1）java：spark 2.0以后的版本都用JAVA1.8+的1）删除之前javarpm -qa | grep jdk结果：j...

2018-11-20 22:19:15 416

原创 flume向kafka中写入日志，报错WARN - org.apache.avro.ipc.NettyServer$NettyServerAvroHandler.exceptionCaught(Net

1.问题描述flume从端口44444获得数据，写入kafka中，然后报错，百思不得其解：2018-11-20 07:41:59,917 (New I/O worker #1) [WARN - org.apache.avro.ipc.NettyServer$NettyServerAvroHandler.exceptionCaught(NettyServer.java:201)] Unex...

2018-11-20 07:57:46 2297

转载 kafka单机不能发送信息和消费消息（转）

zookeeper和kafaka服务0.8版本以后默认是不需要配置的，但是本文遇到了一种要修改配置的情形。终端A开启zookeeper和kafaka服务后发送消息bin/kafka-console-producer.sh --broker-list localhost:9092--topic tpc 终端B消费信息 bin/kafka-console-consumer...

2018-11-20 06:59:09 1206

原创 sqoop(5):export之hbaseTomysql

一、实现功能1.目的：使用sqoop将hbase中数据导入到mysql中，sqoop没有这个直接功能，需要hive做一个中间转换。2.环境：hadoop2.7.3、hive1.2.1、hbase-0.98.6、sqoop-1.4.7.bin。二、实现步骤1.开启hdfsyarn（这个一定要开启，因为sqoop需要调用）zkmetastorehbase服务器2.建表...

2018-11-18 00:34:55 305

原创 Error:Web开发无法导入import net.sf.json.JSONArray；

1.问题描述Springboot的web开发，已经导入了pom依赖，但是无法导入包import net.sf.json.JSONArray；<dependency> <groupId>net.sf.json-lib</groupId> <artifactId>json-lib</artifactId> <versio...

2018-11-17 09:22:35 8102

原创 Error：mysql插入中文字符报错ERROR 1366 (HY000): Incorrect string value: ‘\xE5\xB0\x8F\xE6\x97\xB6...‘ for co

1.环境centos7.4和mysql2.原因mysql默认编码latin1是不支持中文字符的，所以报错。3.解决方法通过设置编码字符为utf8，从而支持中文字符。4.步骤4.1方法一：代码实现【测试实现！】（1）查看mysql默认编码格式mysql>show variables like '%char%';+-------------------...

2018-11-17 08:24:48 2787 4

原创 Error:Springboot启动报错:LoggerFactory is not a Logback LoggerContext but Logback is on the classpath.

1.问题描述启动WebApplication就会报错Exception in thread "main" java.lang.IllegalArgumentException: LoggerFactory is not a Logback LoggerContext but Logback is on the classpath. Either remove Logback or the...

2018-11-16 08:16:26 3047 4

原创 git操作总结（7）：删除github远程仓库

【步骤：】1.进入github相应仓库，点击"Settings"2.复制项目名称3.拉到最下面，点击“Delete this repository”4.将仓库的名字复制到下面的文本框中，并且点击下面红框确认删除！（完成） ...

2018-11-15 21:24:27 1487

转载《JAVA与模式》之抽象工厂模式（转）

场景问题　　举个生活中常见的例子——组装电脑，我们在组装电脑的时候，通常需要选择一系列的配件，比如CPU、硬盘、内存、主板、电源、机箱等。为讨论使用简单点，只考虑选择CPU和主板的问题。　　事实上，在选择CPU的时候，面临一系列的问题，比如品牌、型号、针脚数目、主频等问题，只有把这些问题都确定下来，才能确定具体的CPU。　　同样，在选择主板的时候，也有一系列问题，比如品牌、芯片组、集成...

2018-11-15 14:45:54 231

原创 Hive(29):hive/hadoop的压缩格式选择

一、功能实现1.将存储数据压缩，减少存储空间。2.hive的存储格式和压缩格式区别（如下图）二、实现步骤1.设置hadoop运行的任务的参数（1）配置参数（a）永久修改：在配置文件中修改：mapred-site.xml 改为之后重启hadoop （b）临时修改：在执行中设置参数：-D 表示指定运行的参数，格式：key=vlaue（2）执行使用的命...

2018-11-14 08:12:45 235

原创 Hive(28):hive的高压缩存储格式

一、hive各种不同存储数据格式介绍1.不同存储格式（1）TEXTFILE:行存储（磁盘开销大）（2）RCFILE:数据是按行进行分块，每块按照列存储（压缩快）（3）ORC:rcfile的改良版（第一选择）（4）PARQUET:列式存储，良好压缩性能（第二选择）（5）AVRO:为了解析Avro格式的数据（0.40）（6）INPUTFORMAT input_format_clas...

2018-11-14 07:51:02 205

原创 Hive(27):分析网站uvpv等多指标综合案例

一、实现功能1.分析网站日志，获得日期，uv，pv，登录人数，游客人数，平均访问时长，二跳率，独立ip数等关键信息。其中：登录：userid有值，会员，有账号登录游客：userid无值，非登录人员平均访问时长：在网页停留时间二跳率：在一次会话中，同一个session点击的页面大于等于2的会话就是二跳（判断同一个session有多条记录的几率是多少）独立ip数：统计ip去重2...

2018-11-13 21:13:52 926

原创 Hive(26):case when 和 cast

一、case when1.针对表emp.empno emp.ename emp.job emp.mgr emp.hiredate emp.sal emp.comm emp.deptno7369 SMITH CLERK 7902 1980-12-17 800.0 NULL 207499 ALLEN...

2018-11-13 07:32:33 1518

原创 Hive(25):实例：hive时间格式的转换

一、时间格式的转换实现将日志中的字段转换为需要的字符串。二、实现方法1.UDF（1）目的：将日期"31/Aug/2015:00:04:37 +0800" 转换为"2015-08-31 00:04:37"（2）创建类TestDateUDFpackage com.ibeifeng.hive.mapreduce;import java.util.Date;import j...

2018-11-12 21:48:11 1628

原创 Hive(24):实例：hive shell脚本实现自动加载数据

一、实现功能日志文件需要按时自动上传到hdfs、hive，然后，才可以进行下一步的ETL。所以，定时定点将日志信息按时上传时非常重要的。二、实现1.hive中创建源表create database load_hive;create table load_hive.load_tb(id string,url string,...

2018-11-12 19:31:10 2699

原创 Hive(23):实例：网站流量分析

一、概述1.分析统计24小时内的每个时段的pv和uv（1）pv统计总的浏览量（2）uv统计对guid去重后的总量（3）获取时间字段，日期和小时，建立分区表2.网站两天数据格式数据121508281810000000 http://www.yhd.com/?union_ref=7&cp=0 3 PR4E9HWE38DMN4Z6HUG667SCJNZXMHSPJR...

2018-11-12 19:18:09 744

原创 git操作总结（5）：远程仓库

1.链接本地库和远程仓库git remote add origin git@github.com:michaelliao/learngit.git2.推送到远程git push -u origin testbranch3.创建远程分支git push origin <local_branch>:<remote_branch> 实例git p...

2018-11-11 15:31:34 138

原创 git操作总结（4）：标签操作

1.命令git tag用于本地新建一个标签（1）默认针对HEAD给HEAD打下v1.1的标签git tag v1.1（2）给指定版本打标签-》首先，查看历史git log --pretty=oneline --abbrev-commit-》然后，针对id给标签git tag v0.9 6224937其中：6224937是指定版本的id（3）创建标签，并...

2018-11-11 15:30:52 152

原创 git操作总结（3）：分支管理

1.创建并且切换git checkout -b testbranch2.查看分支（1）本地分支git branch（2）查看远程分支git branch -r （3）查看所有分支$ git branch -a* master remotes/origin/master3.切换某一分支git checkout master4.合并分支...

2018-11-11 15:19:45 167

原创 git操作总结（2）：回退和前进到某一个版本

1.查看日志：git log简化命令git log --pretty=oneline2.回退到上一个版本 git reset HEAD^ 注释：用HEAD表示当前版本，上一个版本就是HEAD^，上上一个版本就是HEAD^^ 当然往上100个版本写100个^比较容易数不过来，所以写成HEAD~100。3.前进到指定版本版本...

2018-11-11 15:06:38 3776

Postgresql存储过程.docx

数据库存储过程：包括控制if，循环while/for/loop的实现

2019-07-29

前后端分离-资料.rar

docker部署前后端分离项目的配置文件，基本包含了所有配置需要的文本。可以解决，从网页中拷贝配置文件命令，带有特殊字符的问题，方便快速部署。

2019-07-26

IKAnalyzer2012FF_u1中文分词器

IK中分分词器，在全文检索中非常有用，尤其对于中文文档的全文检索。本压缩包打包文件可以满足使用solr建立全文检索的配置需求。

2019-04-27

hadoop的wordcount简单实例

这是一个wordcount的一个简单实例jar包，仅仅用来做测试。 map类：org.apache.hadoop.wordcount.WordCountMapReduce$WordCountMapper reduce类 org.apache.hadoop.wordcount.WordCountMapReduce$WordCountReducer

2018-12-06