自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

小蚯蚓的博客

大数据hadoop和linux,java等编程和框架设计

  • 博客(85)
  • 资源 (10)
  • 问答 (1)
  • 收藏
  • 关注

原创 HBase(6):热点与表的设计原则

一、热点问题1.热点问题描述某一时间段内客户端并发读写操做集中在某一个region上或者某一台regionserver上,导致region或者regionserver的负载压力过大,是其他的好几倍,就造成热点问题。针对rowkey某个范围的比较,造成压力过大,浪费集群资源2.解决:预分区,一开始创建表时就指定有多少个region(a)create 't1', 'f1', SPLI...

2018-11-29 23:36:05 231

原创 HBase(5):分布式hbase部署

一、准备工作1.准备完全分布式的hadoop环境2.准备完全分布式的zk环境3.节点的时间都要同步好4.ssh配置好二、安装和配置cdh版本1.hbase解压缩到app目录下tar -zxvf hbase-0.98.6-cdh5.3.6.tar.gz -C /opt/app/ 2.修改hbase-env.sh、hbase-site.xml、regionservers ...

2018-11-29 20:57:31 192

原创 HBase(4):HBase操作JAVA API

一、功能通过JAVA API实现数据库的创建表、删除表以及增删改查基本操作。二、配置1.Maven依赖 <repositories> <repository> <id>cloudera</id> <url>https://repository.cloudera.com/artifactory/cloude...

2018-11-29 07:44:30 461

原创 HBase(4):HBase读写流程

1.hbase读写流程(1)读流程:根据表名称和rowkey(start-end)找到对应region    -》在zk中存储了meta的region信息,从zk中获取相应的region信息    -》找到对应的regionserver    -》找到region    (2)写流程:根据表名称和rowkey(start-end)找到对应region    -》在zk中存储了met...

2018-11-28 20:51:55 484

原创 HBase(3):内部机制flush & compact & split

1.实现功能当向hbase数据库中存储数据的时候,实际存储过程是有三个阶段:flush &amp; compact &amp; split。 2.分步说明(1)flush       Client写入 -&gt; 存入MemStore,一直到MemStore满(Hlog)-&gt; Flush成一个StoreFile存储在HDFS上         (2)compact    ...

2018-11-27 23:36:48 618

原创 HBase(2):hbase物理模型结构

一.物理结构图二.关键概念1.存储单元Cell(1)存储单元cell:rowkey+列簇+timestamp+version,确定一个单元格的值 (2)数据无类型,以字节码的形式进行存储2.Region(1)列分割:table中所有的行都是按照字典序进行排列,可以在行的方向分割为多个region(2)region是hbase中分布式存储和负载均衡的最小单元,存储的最小...

2018-11-27 23:30:58 622

原创 HBase(1):shell基本命令

一.功能实现使用shell基本命令,进行hbase数据库操作二.环境准备1.开启hdfs2.开启zk3.开启regionser和master三.基本Hbase操作1.hbase namespace(1)创建namespacecreate_namespace 'ns1'create_namespace 'nstest'(2)展示namespaceli...

2018-11-27 23:16:00 705

原创 flume报错:Space for commit to queue couldn‘t be acquired. Sinks are likely not keeping up with sources

1.问题描述自己采用flume监控log文件,结果报错2018-11-26 19:32:04,687 (pool-5-thread-1) [ERROR - org.apache.flume.source.ExecSource$ExecRunnable.run(ExecSource.java:353)] Failed while running command: tail -F /opt/...

2018-11-26 23:10:06 2701 2

转载 maven如何引入依赖的时候去除其中某个jar包?(转)

转自:http://www.cnblogs.com/apache-x/p/5674028.htmlmaven项目,去除jar包中的不想要的依赖关系 解释:就是说项目中要用到某一个a.jar包,通过maven引入了之后,也自动的导入了该jar包所依赖的包,这里就会存在一个问题,如果a.jar包依赖b.jar这个项目的1.0版本,可是我的项目中已经有b.jar这个项目2.0的版本了,这里就...

2018-11-26 20:28:31 8080

原创 Maven(二):打包方法

1.功能将项目打jar包,从而可以在不同环境下运行。2.步骤(1)打开cmd(注意,win10的powershell有些不兼容,最好用cmd)(2)进入项目根目录e:cd Tools\WorkspaceforMyeclipse\WebSpring(3)运行 mvn clean package -DskipTests结果:[INFO] --- maven-sur...

2018-11-25 23:15:30 219

原创 SpringBoot莫名报错:Failed to start component [StandardEngine[Tomcat].StandardHost[localhost].TomcatEmbed

1.问题描述启动spring boot项目,但是报错: . ____ _ __ _ _ /\\ / ___'_ __ _ _(_)_ __ __ _ \ \ \ \( ( )\___ | '_ | '_| | '_ \/ _` | \ \ \ \ \\/ ___)| |_)| | | | | || (_| | ) ) ) ) ...

2018-11-25 17:55:22 37826 23

原创 idae运行spark代码报错ERROR MetricsSystem: Sink class org.apache.spark.metrics.sink.MetricsServlet cannot b

1.问题描述在idea中编写,streaming处理服务器socket传递的数据,结果报错:"C:\Program Files\Java\jdk1.8.0_91\bin\java" -Didea.launcher.port=7534 "-Didea.launcher.bin.path=C:\Program Files (x86)\JetBrains\IntelliJ IDEA 2016....

2018-11-25 11:13:07 3218 1

原创 HBase:java api连接hbase报错 ERROR AsyncProcess: Failed to get region location

1.问题描述JavaAPI操作HBase数据库报错如下,经检查,HBase本身没有问题,可以创建以及添加数据。但是javaapi就是连接不上去,坑了两天没有思路。该式的方法都试了,centos和windows的hosts都配置了对应的域名,但是就是连接不上去。18/11/23 07:31:53 INFO ZooKeeper: Client environment:java.io.tmpd...

2018-11-24 15:26:49 9871 3

原创 IDEA(4):Maven-CDH版本hadoop添加pom的依赖【重要】

1.添加cdh的repositories<repositories> <repository> <id>cloudera</id> <url>https://repository.cloudera.com/artifactory/cloudera-repos/</url> ...

2018-11-24 15:06:07 3533

原创 Streaming消费kafka信息ERROR:没有消费消息, WARN ClientUtils$: Fetching topic metadata with correlation id 0 for

1.问题描述kafka自己的consumer可以消费,但是使用Streaming的API消费kafka消息,就没有消费记录,同时控制界面上显示信息:18/11/22 18:07:26 INFO SyncProducer: Connected to localhost:9092 for producing18/11/22 18:07:26 INFO SyncProducer: Disco...

2018-11-24 15:04:44 1197 1

原创 Streaming消费kafka报错:java.lang.NoClassDefFoundError: net/jpountz/util/SafeUtils

1.问题描述Streaming消费kafka消息,报以下错误:18/11/22 18:14:55 ERROR Executor: Exception in task 0.0 in stage 14.0 (TID 9)java.lang.NoClassDefFoundError: net/jpountz/util/SafeUtils at org.apache.spark.io.LZ4...

2018-11-24 15:04:35 1862

原创 IDEA(3):新建java源码文件

1.在src.main下面新建java文件夹2.将java文件夹选中,点击project structure3.选中相应文件夹,选择sources,即可!  

2018-11-24 06:27:44 445

原创 IDEA(2):MAVEN项目pom文件基本修改

1.修改properties(1)设置scala为对应版本 &lt;properties&gt; &lt;scala.version&gt;2.11.8&lt;/scala.version&gt; &lt;/properties&gt;2.删除不必要的配置(1)repositories &lt;repositories&gt; &lt;reposito...

2018-11-24 06:27:00 3151

原创 IDEA(1):创建Scala的MAVEN项目步骤

一、创建项目1.新建project2.选择scala-archetype-simple结构3.设置三要素GroupId、ArtifactId和Version4.选择本地Maven仓库5.修改项目名称,点击finish6.最终项目结构二、修改pom文件1.添加scala依赖 <dependency> <...

2018-11-24 06:26:16 2669

原创 flume连接kafka报错 Excessively large list allocation request detected: 1818583411 items! Connection clos

1.问题描述:flume然后sinkTokafka,flume是1.6.0然后kafka是0.8.2.1。flume和kafka自测都没有问题,但是flumeTokafka就会:2018-11-21 01:09:16,119 (lifecycleSupervisor-1-1) [INFO - kafka.utils.Logging$class.info(Logging.scala:68)...

2018-11-21 21:08:42 2177

原创 spark2.1.0编译 cdh5.7.0版本

一、实现目标从spark官网下载2.1.0的源码,然后编译对应hadoop版本的spark,从而可以解决很多兼容性问题,使程序运行环境更加优越,顺畅。二、环境准备1.硬件无论云主机还是虚拟机,内存一定要4G以上,最好8G+。2.软件(1)java:spark 2.0以后的版本都用JAVA1.8+的1)删除之前javarpm -qa | grep jdk结果:j...

2018-11-20 22:19:15 416

原创 flume向kafka中写入日志,报错WARN - org.apache.avro.ipc.NettyServer$NettyServerAvroHandler.exceptionCaught(Net

1.问题描述flume从端口44444获得数据,写入kafka中,然后报错,百思不得其解:2018-11-20 07:41:59,917 (New I/O worker #1) [WARN - org.apache.avro.ipc.NettyServer$NettyServerAvroHandler.exceptionCaught(NettyServer.java:201)] Unex...

2018-11-20 07:57:46 2297

转载 kafka单机不能发送信息和消费消息(转)

zookeeper和kafaka服务0.8版本以后默认是不需要配置的,但是本文遇到了一种要修改配置的情形。 终端A开启zookeeper和kafaka服务后发送消息bin/kafka-console-producer.sh --broker-list localhost:9092--topic tpc 终端B消费信息 bin/kafka-console-consumer...

2018-11-20 06:59:09 1206

原创 sqoop(5):export之hbaseTomysql

一、实现功能1.目的:使用sqoop将hbase中数据导入到mysql中,sqoop没有这个直接功能,需要hive做一个中间转换。2.环境:hadoop2.7.3、hive1.2.1、hbase-0.98.6、sqoop-1.4.7.bin。二、实现步骤1.开启hdfsyarn(这个一定要开启,因为sqoop需要调用)zkmetastorehbase服务器2.建表...

2018-11-18 00:34:55 305

原创 Error:Web开发无法导入import net.sf.json.JSONArray;

1.问题描述Springboot的web开发,已经导入了pom依赖,但是无法导入包import net.sf.json.JSONArray;&lt;dependency&gt; &lt;groupId&gt;net.sf.json-lib&lt;/groupId&gt; &lt;artifactId&gt;json-lib&lt;/artifactId&gt; &lt;versio...

2018-11-17 09:22:35 8102

原创 Error:mysql插入中文字符报错ERROR 1366 (HY000): Incorrect string value: ‘\xE5\xB0\x8F\xE6\x97\xB6...‘ for co

1.环境centos7.4和mysql2.原因mysql默认编码latin1是不支持中文字符的,所以报错。3.解决方法通过设置编码字符为utf8,从而支持中文字符。4.步骤4.1方法一:代码实现【测试实现!】(1)查看mysql默认编码格式mysql&gt;show variables like '%char%';+-------------------...

2018-11-17 08:24:48 2787 4

原创 Error:Springboot启动报错:LoggerFactory is not a Logback LoggerContext but Logback is on the classpath.

1.问题描述启动WebApplication就会报错Exception in thread "main" java.lang.IllegalArgumentException: LoggerFactory is not a Logback LoggerContext but Logback is on the classpath. Either remove Logback or the...

2018-11-16 08:16:26 3047 4

原创 git操作总结(7):删除github远程仓库

【步骤:】1.进入github相应仓库,点击"Settings"2.复制项目名称3.拉到最下面,点击“Delete this repository”4.将仓库的名字复制到下面的文本框中,并且点击下面红框确认删除!(完成) ...

2018-11-15 21:24:27 1487

转载 《JAVA与模式》之抽象工厂模式(转)

场景问题  举个生活中常见的例子——组装电脑,我们在组装电脑的时候,通常需要选择一系列的配件,比如CPU、硬盘、内存、主板、电源、机箱等。为讨论使用简单点,只考虑选择CPU和主板的问题。  事实上,在选择CPU的时候,面临一系列的问题,比如品牌、型号、针脚数目、主频等问题,只有把这些问题都确定下来,才能确定具体的CPU。  同样,在选择主板的时候,也有一系列问题,比如品牌、芯片组、集成...

2018-11-15 14:45:54 231

原创 Hive(29):hive/hadoop的压缩格式选择

一、功能实现1.将存储数据压缩,减少存储空间。2.hive的存储格式和压缩格式区别(如下图)二、实现步骤1.设置hadoop运行的任务的参数(1)配置参数    (a)永久修改:在配置文件中修改:mapred-site.xml  改为之后重启hadoop    (b)临时修改:在执行中设置参数:-D  表示指定运行的参数,格式:key=vlaue(2)执行使用的命...

2018-11-14 08:12:45 235

原创 Hive(28):hive的高压缩存储格式

一、hive各种不同存储数据格式介绍1.不同存储格式(1)TEXTFILE:行存储(磁盘开销大)(2)RCFILE:数据是按行进行分块,每块按照列存储(压缩快)(3)ORC:rcfile的改良版(第一选择)(4)PARQUET:列式存储,良好压缩性能(第二选择)(5)AVRO:为了解析Avro格式的数据 (0.40)(6)INPUTFORMAT input_format_clas...

2018-11-14 07:51:02 205

原创 Hive(27):分析网站uvpv等多指标综合案例

一、实现功能1.分析网站日志,获得日期,uv,pv,登录人数,游客人数,平均访问时长,二跳率,独立ip数等关键信息。其中:登录:userid有值,会员,有账号登录游客:userid无值,非登录人员平均访问时长:在网页停留时间二跳率:在一次会话中,同一个session点击的页面大于等于2的会话就是二跳(判断同一个session有多条记录的几率是多少)独立ip数:统计ip去重2...

2018-11-13 21:13:52 926

原创 Hive(26):case when 和 cast

一、case when1.针对表emp.empno emp.ename emp.job emp.mgr emp.hiredate emp.sal emp.comm emp.deptno7369 SMITH CLERK 7902 1980-12-17 800.0 NULL 207499 ALLEN...

2018-11-13 07:32:33 1518

原创 Hive(25):实例:hive时间格式的转换

一、时间格式的转换实现将日志中的字段转换为需要的字符串。二、实现方法1.UDF(1)目的:将日期"31/Aug/2015:00:04:37 +0800" 转换为"2015-08-31 00:04:37"(2)创建类TestDateUDFpackage com.ibeifeng.hive.mapreduce;import java.util.Date;import j...

2018-11-12 21:48:11 1628

原创 Hive(24):实例:hive shell脚本实现自动加载数据

一、实现功能日志文件需要按时自动上传到hdfs、hive,然后,才可以进行下一步的ETL。所以,定时定点将日志信息按时上传时非常重要的。二、实现1.hive中创建源表create database load_hive;create table load_hive.load_tb(id string,url string,...

2018-11-12 19:31:10 2699

原创 Hive(23):实例:网站流量分析

一、概述1.分析统计24小时内的每个时段的pv和uv(1)pv统计总的浏览量(2)uv统计对guid去重后的总量(3)获取时间字段,日期和小时,建立分区表2.网站两天数据格式数据121508281810000000 http://www.yhd.com/?union_ref=7&amp;cp=0 3 PR4E9HWE38DMN4Z6HUG667SCJNZXMHSPJR...

2018-11-12 19:18:09 744

原创 git操作总结(5):远程仓库

1.链接本地库和远程仓库git remote add origin git@github.com:michaelliao/learngit.git2.推送到远程git push -u origin testbranch3.创建远程分支git push origin &lt;local_branch&gt;:&lt;remote_branch&gt; 实例git p...

2018-11-11 15:31:34 138

原创 git操作总结(4):标签操作

1.命令git tag用于本地新建一个标签(1)默认针对HEAD给HEAD打下v1.1的标签git tag v1.1(2)给指定版本打标签-》首先,查看历史git log --pretty=oneline --abbrev-commit-》然后,针对id给标签git tag v0.9 6224937其中:6224937是指定版本的id(3)创建标签,并...

2018-11-11 15:30:52 152

原创 git操作总结(3):分支管理

1.创建并且切换git checkout -b testbranch2.查看分支(1)本地分支git branch(2)查看远程分支git branch -r (3)查看所有分支$ git branch -a* master remotes/origin/master3.切换某一分支git checkout master4.合并分支...

2018-11-11 15:19:45 167

原创 git操作总结(2):回退和前进到某一个版本

1.查看日志:git log简化命令git log --pretty=oneline2.回退到上一个版本 git reset HEAD^    注释:        用HEAD表示当前版本,上一个版本就是HEAD^,上上一个版本就是HEAD^^        当然往上100个版本写100个^比较容易数不过来,所以写成HEAD~100。3.前进到指定版本  版本...

2018-11-11 15:06:38 3776

Postgresql存储过程.docx

数据库存储过程:包括控制if,循环while/for/loop的实现

2019-07-29

前后端分离-资料.rar

docker部署前后端分离项目的配置文件,基本包含了所有配置需要的文本。可以解决,从网页中拷贝配置文件命令,带有特殊字符的问题,方便快速部署。

2019-07-26

IKAnalyzer2012FF_u1中文分词器

IK中分分词器,在全文检索中非常有用,尤其对于中文文档的全文检索。本压缩包打包文件可以满足使用solr建立全文检索的配置需求。

2019-04-27

hadoop的wordcount简单实例

这是一个wordcount的一个简单实例jar包,仅仅用来做测试。 map类:org.apache.hadoop.wordcount.WordCountMapReduce$WordCountMapper reduce类 org.apache.hadoop.wordcount.WordCountMapReduce$WordCountReducer

2018-12-06

virtual PC 虚拟机独立更新安装包

XP,PC虚拟机安装包pc机独立更新安装包

2015-05-21

串口调试软件

串口调试软件,很方便灵巧的一个实用调试软件!

2015-05-21

HDTune 5.0.rar

小巧而灵活的监测硬盘健康状况的工具,可以看移动硬盘的加电累计时间和硬盘加电次数。

2015-05-21

火狐电子书阅览器EPUBReader

epubReader是一个强大的电子图书阅读器,不但支持本地电子书,包括ePub、umd、TXT和Html/xHtml格式,而且支持在线下载epub格式电子书。如果在本地浏览ePub格式书籍可以使用epubBuilder创建,在测试中ePub格式压缩率高,并且制作速度非常快。

2015-05-21

文件管理器EF_Commander_10.45_64.exe

文件太乱,时常找不到所需要的文件?这就是一款很好的软件,解决问题!

2015-05-21

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除