自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(59)
  • 资源 (5)
  • 收藏
  • 关注

原创 JDK源码学习01--------源码包结构

最近在学习JDk源码,借鉴别人,自己就总结了一下就先从包结构说起吧,以JDK8为例包含:resources.jar、rt.jar、jsse.jar、jce.jar、charsets.jar、jfr.jar、access-bridge.jar,cldrdata.jar,dnsns.jar,等共18个jar文件,其中像比较jdk6多了8个jar包各个包的解析:resource.jar为资源包(图片、p...

2018-03-20 20:08:32 683 2

原创 Spark-core之RDD核心概念

一、Spark包括什么spark的核心是Spark Core,其中上面的Spark Sql对接的是Hive等结构化查询,Spark Streaming是对接的流式计算,后面的那两个也是主要用在科学任务中,但是他们的基础都是spark core,而Spark core的核心就是RDD操作,RDD的操作重要的就是算子,也就是说,掌握了算子基本上就掌握了spark的基础。二、RDD1、是...

2018-09-06 11:20:56 1441

原创 JVM入门及调优

jvm是在操作系统之上的,他与硬件没有直接的交互。一、JVM体系结构(非常重要)其中:1、ClassLoder类加载器相当于快递员,只负责传输,而真正执行的是后面的额执行引擎2、Jvm调优只能调亮的地方也就是方法区和堆,灰色的部分不能调优灰色的都是私有的,不存在垃圾回收和调优二、类加载器(重点是加载器的双亲委派机制和沙箱机制)负责加载class文件,但是怎么识别是不是c...

2018-08-29 19:11:16 447

原创 Linux大数据重要命令

真正的大数据工程师,linux命令是横着写很长,不是一句一句执行的,尤其是大数据工程师需要检测cpu,内存,网络IO等各种开销,就需要掌握各种命令,命令主要分为这几种,一是查看各种进程的相关信息,其中包括cpu或者内存等从高到底,或者是前十等等。二是排查故障,结合linux和java的各种命令快速定位到问题出现的关键地方。三是排除系统长时间使用过慢原因等。首先需要明确的是,要学会各种linux...

2018-08-27 19:36:10 1820 1

原创 Mysql之索引失效

【优化口诀】 全值匹配我最爱,最左前缀要遵守; 带头大哥不能死,中间兄弟不能断; 索引列上少计算,范围之后全失效; LIKE百分写最右,覆盖索引不写*; 不等空值还有OR,索引影响要注意; VAR引号不可丢, SQL优化有诀窍。解析索引失效案例:前提建立了一个复合索引:ALTER TABLE staffs ADD INDEX idx_staffs_nameAgePos(name...

2018-08-27 19:35:19 6138 4

原创 Lock8锁

前言:Lock     替代了      synchronizedCondition  替代了   Object中的wait 和notify 方法为什么Lock会替代synchroized?  synchronized的局限性占有锁的线程等待IO或者其他原因被阻塞,没有释放锁的情况下,其他线程一直阻塞 多个线程同时读写文件的时候,读和读操作也会发生冲突 我们没有办法知道当前...

2018-08-27 19:35:06 669 1

原创 Mysql之索引

一、索引简介1、定义:索引就是帮助mysql高效获得数据的数据结构,简单理解就是“排好序的快速查找的数据结构”2、索引详解: 在数据之外,数据库系统还维护着满足特定查找算法的数据结构,这些数据结构以某种方式引用(指向)数据,这样就可以在这些数据结构上实现高级查找算法。这种数据结构,就是索引。下图就是一种可能的索引方式示例:左边是数据表,一共有两列七条记录,最左边的是数据记录的...

2018-08-26 10:57:36 213

原创 mysql百万数据插入脚本

在公司测试中难免使用几百万条数据测试,这就需要向自己的数据库中短时间插入百万数据,在这就有脚本可以现成使用,本案例用的是员工和部门的关系,可以举一反三。1、建表# 新建库create database bigData;use bigData; #1 建表deptCREATE TABLE dept( id INT UNSIGNED PRIMARY KEY AUTO_INC...

2018-08-25 11:14:59 7235 4

转载 mysql之事务

 事务就是一组原子性的SQL查询,或者说一个独立的工作单元。如果数据库引擎能够成功地对数据应用该组查询的全部语句,那么久执行该组查询。如果其中任何一条语句因为崩溃或其他原因无法执行,那么所有语句都不会执行。事务的概念简单的说就是,事务内的语句,要么全部执行成功,要么全部执行失败。 事务的四大特性(ACID):1.原子性(atomicity):一个事务必须视为一个不可分割的最小工作单...

2018-08-22 08:32:25 240

原创 JUC之线程通知

上一次说道,线程操作记住:线程  操作  资源类,高内聚低耦合,这是上下(wait和notify)口诀: 判断/干活/通知   ,虚假唤醒一、案例 1(两个线程) 现在两个线程,可以操作初始值为零的一个变量,实现一个线程对该变量加1,一个线程对该变量减1,交替,来10轮。资源类:可以结合判断 干活  通知,注意是if判断只判断一次,后面会讲到class ShareData{...

2018-08-21 21:00:34 228

原创 JUC之线程抢占资源

创建线程重要!!!1、怎么做多线程题?口诀:线程 操作  资源类 ,高内聚低耦合(指的是操作)不管会不会,先创建资源类,在资源类里封装对资源的操作,然后在创建多个线程,在操作这个资源类2、多线程操作时候,就会产生线程安全问题,比如,之前提过的 i++ 就是线程不安全,JUC提供了安全解决措施,在 java.util.concurrent.locks包下,怎么做到线程安全,就是尽量做到原...

2018-08-21 20:17:54 555

原创 JUC之集合

常见的有哪些是线程不安全的?1、集合类是不安全的:ArrayList,HashSet,HashMap等等都是不安全2、i++, ++i 也是不安全JUC什么?1、juc是java.util.concurrent包的简称,在此包中增加了在并发编程中很常用的实用工具类,用于定义类似于线程的自定义子系统,包括线程池、异步IO 和轻量级任务框架。提供可调的、灵活的线程池。还提供了设计用于多...

2018-08-21 19:42:24 702

原创 Lombok的安装和使用

Lombok使用介绍在项目中使用Lombok可以减少很多重复代码的书写。比如说getter/setter/toString等方法的编写。主要是他可以动态的生成get,set等等方法,在企业中是非常实用的,修改属性时,不用在去修改get,set方法,tostring方法等IDEA中的安装打开IDEA的Setting –> 选择Plugins选项 –> 选择Browse...

2018-08-21 19:03:46 421

原创 电信客服项目之协处理器

协处理器在本项目中主要是用来,在向hbase中put一条数据时同时也要put一条call1和call2颠倒的数据注意:1、协处理器如果是配置到hbase-site.xml文件中,默认是对全部的表都进行处理2、如果不配置到xml文件,只指定某个表,那么就只对改表有效3、注意将consumer进行编译,打包,打包后上传到hbase的lib包下,记住记住,一定要分发这个jar包4、一...

2018-08-17 20:59:26 531

原创 Hbase之协处理器

官方介绍https://blogs.apache.org/hbase/entry/coprocessor_introduction使用它一定要慎重,一旦协处理器出问题,则hbase将起不来,不过也有配置进行修复,修复配置见最后协处理器简介      可理解为服务端的拦截器,可根据需求确定拦截点,再重写这些拦截点对应的方法 客户端的读取API配合筛选机制可控制返回的数据量 进一步优化...

2018-08-17 20:50:59 1115

原创 电信客服项目查询方式之过滤器

当数据插入到hbase中,可以进行查询,查询方式可以分为两种,一个scan,一个startRow和stopRow,两种方式最好是使用startRow,因为,这种查询块,而本篇先讲述scan遍历方式,主要是是结合Filter过滤器一、先引入工具类HBaseFilterUtilHBaseFilterUtil是分装了各种过滤器,不过都是值过滤器,有大于小于的,有过滤器链的,也有包含and和or条...

2018-08-17 20:25:57 247

原创 电信客服项目只HbaseUtil和HbaseDao

一、HbaseUtil在HbaseUtil中具体要做这些事,封装一下方法:创建命名空间,创建表,判断表是否存在,分区键生成,rowkey设计重点的是分区键的设计和rowkey的生成1、创建命名空间和判断表存不存在比较简单 public static void createNamespace(String ns) throws IOException { ...

2018-08-17 19:53:53 501

原创 电信客服项目之分区键和rowkey设计

一、分区键设计分区是解决数据倾斜的有效有段,分区比较简单, 关键在于需要分多少区,比如本项目分六个区形式为              00|00|         01|01|         02|02|          03|.........05|       为什么每个分区号要加竖线呢?因为,竖线的值比较大比下线等大,而rowkey分哪个区是需要按位比较的...

2018-08-17 19:50:33 501

原创 电信客服项目之Consumer工程

先用kafka消费者API接受数据,然后在用hbase的api写入hbase,需要创建一个maven工程,一、创建工程如下:1、constant包:主要存放常用的常量比如:hbase的配置文件public static final Configuration hBaseConfiguration = HBaseConfiguration.create();2、utils...

2018-08-17 19:15:42 351

原创 电信客服项目之总体架构

本项目需求是:统计每天、每月以及每年的每个人的通话次数及时长 架构图:本项目是一个离线项目,流程是:一、生产数据是实际生产环境中的一些日志文件等,其中该日志文件需要进行数据清洗,然后获取有效字段,本电信项目需要的有效字段有:主叫手机号:call1 ,被叫手机号:call2,建立通话的时间:buildTime,通话时长:duration二、 使用Flume收集日志,然后传输到Ka...

2018-08-17 18:58:43 1426

原创 Kafka的消费者API

kafka官方文档APIhttp://kafka.apache.org/090/javadoc/index.html?org/apache/kafka/clients/consumer/KafkaConsumer.html一、高级APIkafka自己维护offset分区等等:创建和设置KafkaConsumer对象,记住要记得去订阅topic即调用subscribe方法publi...

2018-08-15 15:11:12 4342 2

原创 Kafka的生产者API(新)

主要是创建和设置KafkaProducer这个对象,分为两种:一个是带回调函数的,一个是不带的1、创建生产者这个是不带回调函数,其中像端口号等配置项都封装在了ProducerConfig这个类里,也可以使用 ProducerConfig.BOOTSTRAP_SERVERS_CONFIG 这种方式去设置属性,这样比下面这种好记public class NewProducer {...

2018-08-15 14:44:41 1846

原创 大数据中常见端口

 常见端口汇总:Hadoop:        50070:HDFS WEB UI端口    8020 : 高可用的HDFS RPC端口    9000 : 非高可用的HDFS RPC端口    8088 : Yarn 的WEB UI 接口    8485 : JournalNode 的RPC端口    8019 : ZKFC端口   19888:jobhis...

2018-08-14 21:03:47 4095

原创 Kafka集群部署和命令

一、部署注意:kafka启动之前一定是要先将zookeeper集群先起起来的broker:9092就是kafka的服务端口,zookeeper:21811)解压安装包$ tar -zxvf kafka_2.11-0.11.0.0.tgz -C /opt/module/2)修改解压后的文件名称$ mv kafka_2.11-0.11.0.0/ kafka3)在/o...

2018-08-14 20:56:17 681

转载 Kafka最全概述和架构

本篇是属于转载,在加上自己的理解,原文是https://blog.csdn.net/ychenfeng/article/details/74980531KafkaKafka是最初由Linkedin公司开发,是一个分布式、支持分区的(partition)、多副本的(replica),基于zookeeper协调的分布式消息系统,它的最大的特性就是可以实时的处理大量数据以满足各种需求场景:比如基...

2018-08-14 20:36:41 1839 4

转载 Hive窗口函数Over和排序函数Rank

简介本文主要介绍hive中的窗口函数.hive中的窗口函数和sql中的窗口函数相类似,都是用来做一些数据分析类的工作,一般用于olap分析概念我们都知道在sql中有一类函数叫做聚合函数,例如sum()、avg()、max()等等,这类函数可以将多行数据按照规则聚集为一行,一般来讲聚集后的行数是要少于聚集前的...

2018-08-13 20:33:39 8425

原创 Hive之爆炸函数

本部分主要讲述了列转行函数,是最最最最常用的函数,爆炸函数1、函数说明1)explode(col):explode 函数是UFTF函数,将hive一列中复杂的array或者map结构拆分成多行。Explode函数是不允许在select再有其他字段,explode(ARRAY)  列表中的每个元素生成一行explode(MAP)     map中每个key-value对,生成一...

2018-08-13 20:11:50 22253

原创 Hive函数之行转列

介绍三种常用函数,空字段赋值,行转列,case when,一、NVL函数空字段赋值,语法:nvl(string1,replaceValue),当某值为空时调用,二、case when就相当于java中switch case,记得最后一定要加end,else就相当于java中的defalut举例:select   dept_id,  sum(case sex when...

2018-08-13 19:43:56 13939

原创 Hive分桶和抽样查询

一、分桶      分区针对的是数据的存储路径;分桶针对的是数据文件,就相当于hadoop里面的真正的分区。      ★怎么选择桶?默认时对某一列进行hash,使用hashcode对 桶的个数求模取余,确定哪一条记录进入哪一个桶。分桶后,桶内有序,整体不一定有序。      分区提供一个隔离数据和优化查询的便利方式。不过,并非所有的数据集都可形成合理的分区,特别是之前所提到过的要确定...

2018-08-13 19:28:37 2257 1

原创 Hive查询之排序

一、查询语句注意事项1、where子句中不能使用字段别名2、like和rlike1)使用LIKE运算选择类似的值2)选择条件可以包含字符或数字:% 代表零个或多个字符(任意个字符)。_ 代表一个字符。3)RLIKE子句是Hive中这个功能的一个扩展,其可以通过Java的正则表达式这个更强大的语言来指定匹配条件。4)案例实操       (1)查找以2开头薪水的员...

2018-08-13 19:10:23 9859

原创 Hive数据导入导出

Hive的数据导入导出指的是将数据从本地或者是hdfs导入到表中,其中本地导入的话,其实是两部操作,一是上传到hdfs,二是在hdfs移动到仓库位置。记住,本地上传一定要加local一、数据导入1、Load模式1)语法hive> load data [local] inpath   文件路径  [overwrite] into table 表名 [partition (pa...

2018-08-13 18:29:49 544

原创 Hive的DDL操作

本部分主要是讲述了两部分:一个是对数据库的增删查改,一个是对表的增删改重点:创建表的完整创建过程,分区表的理解和操作引言       其实alter命令就是在操作元数据,其实就是对mysql的数据库中的元数据进行操作一、数据库的DDL1、 创建数据库1)创建一个数据库,数据库在HDFS上的默认存储路径是/user/hive/warehouse/*.db。hive (de...

2018-08-11 16:57:13 1963 1

原创 Hive数据类型---以集合类型为主

1、hive的常见的数据结构  Hive数据结构 Java数据结构 int int bigint long string string hive的数据类型基本没变,除了long变成bigint之外,其他的都没有变2、集合类型 数据类型 描述 语法示例 STRU...

2018-08-11 16:22:21 1617

原创 Hive的常见属性配置和其他命令

Hive的一些常见配置有,比如:更改数据仓库位置,在shell中显示数据库名,执行查询时显示字段名等一、Hive中的常见的其他命令$ bin/hive -help可以查看hive的命令以及解释1、“-e” 不进入hive窗口就可以执行sql$ bin/hive -e "select id from student;"2、“-f”执行脚本中sql语句执行文件中的sql语句并将...

2018-08-11 11:59:00 695

原创 Hive安装以及和Mysql关联

一、Hive的安装地址1.Hive官网地址http://hive.apache.org/2.文档查看地址https://cwiki.apache.org/confluence/display/Hive/GettingStarted3.下载地址http://archive.apache.org/dist/hive/4.github地址https://github.co...

2018-08-11 11:44:01 1267 1

原创 Hive简介和架构

第1章 Hive基本概念1.1 什么是HiveHive:由Facebook开源用于解决海量结构化日志的数据统计。Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。本质是:将HQL转化成MapReduce程序? 怎么进行转换的,详见https://blog.csdn.net/qq_26442553/article/details...

2018-08-11 11:14:09 14177 1

原创 maven中log4j的配置文件

一、在resources中先创建一个log4j.properties的文件二、在文件中添加以下内容log4j.rootLogger=INFO, stdoutlog4j.appender.stdout=org.apache.log4j.ConsoleAppenderlog4j.appender.stdout.layout=org.apache.log4j.PatternLayoutl...

2018-08-09 10:01:15 1848 2

原创 Kafka集群部署及命令行操作

前提是:zookeeper集群已经搭建完毕具体步骤见:https://blog.csdn.net/student__software/article/details/814867691、集群规划hadoop102                                 hadoop103                          hadoop104zk         ...

2018-08-07 19:18:27 3471

原创 Zookeeper集群搭建

1.集群规划在hadoop102、hadoop103和hadoop104三个节点上部署Zookeeper。2.解压安装1)解压zookeeper安装包到/opt/module/目录下 tar -zxvf zookeeper-3.4.10.tar.gz -C /opt/module/(2)在/opt/module/zookeeper-3.4.10/这个目录下创建zkData...

2018-08-07 19:11:49 233

原创 Kafka简介和架构

一、简介Kafka是一个分布式消息队列。★Kafka对消息保存时根据Topic进行归类,发送消息者称为Producer,消息接受者称为Consumer,此外kafka集群有多个kafka实例组成,每个实例(server)称为broker。无论是kafka集群,还是consumer都依赖于zookeeper集群保存一些meta信息,来保证系统可用性。二、优点(相比较于Flume)在企业中...

2018-08-07 19:02:21 20648

Metro后台管理模板源码

整套Metro后台管理模板源码,完整的html后台,解压就可以用

2018-03-27

SVN-team同步插件

svn插件,解压即可使用,解压后放在eclipse安装相关目录,重新打开就可以使用

2018-03-26

dubbo-admin的war包

dubbo-admin.war包,我是从GitHub上下载的源码,然后自己打的包。

2018-03-23

JDK10全版本以及之前版本

里面包含jdk从6以来的所有版本,包括JDK10,同时linux版和mac版,Windows版都有

2018-03-23

JavaSE小项目---客户管理系统

实现客户的增删改查,黑窗口实现,主要使用了对象数组等

2018-03-21

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除