student__software-CSDN博客

原创 JDK源码学习01--------源码包结构

最近在学习JDk源码，借鉴别人，自己就总结了一下就先从包结构说起吧，以JDK8为例包含：resources.jar、rt.jar、jsse.jar、jce.jar、charsets.jar、jfr.jar、access-bridge.jar，cldrdata.jar,dnsns.jar,等共18个jar文件,其中像比较jdk6多了8个jar包各个包的解析：resource.jar为资源包（图片、p...

2018-03-20 20:08:32 777

原创 Spark-core之RDD核心概念

一、Spark包括什么spark的核心是Spark Core，其中上面的Spark Sql对接的是Hive等结构化查询，Spark Streaming是对接的流式计算，后面的那两个也是主要用在科学任务中，但是他们的基础都是spark core，而Spark core的核心就是RDD操作，RDD的操作重要的就是算子，也就是说，掌握了算子基本上就掌握了spark的基础。二、RDD1、是...

2018-09-06 11:20:56 1555

原创 JVM入门及调优

jvm是在操作系统之上的，他与硬件没有直接的交互。一、JVM体系结构（非常重要）其中：1、ClassLoder类加载器相当于快递员，只负责传输，而真正执行的是后面的额执行引擎2、Jvm调优只能调亮的地方也就是方法区和堆，灰色的部分不能调优灰色的都是私有的，不存在垃圾回收和调优二、类加载器（重点是加载器的双亲委派机制和沙箱机制）负责加载class文件，但是怎么识别是不是c...

2018-08-29 19:11:16 542

原创 Linux大数据重要命令

真正的大数据工程师，linux命令是横着写很长，不是一句一句执行的，尤其是大数据工程师需要检测cpu，内存，网络IO等各种开销，就需要掌握各种命令，命令主要分为这几种，一是查看各种进程的相关信息，其中包括cpu或者内存等从高到底，或者是前十等等。二是排查故障，结合linux和java的各种命令快速定位到问题出现的关键地方。三是排除系统长时间使用过慢原因等。首先需要明确的是，要学会各种linux...

2018-08-27 19:36:10 2057

原创 Mysql之索引失效

【优化口诀】全值匹配我最爱，最左前缀要遵守；带头大哥不能死，中间兄弟不能断；索引列上少计算，范围之后全失效； LIKE百分写最右，覆盖索引不写*；不等空值还有OR，索引影响要注意； VAR引号不可丢， SQL优化有诀窍。解析索引失效案例：前提建立了一个复合索引：ALTER TABLE staffs ADD INDEX idx_staffs_nameAgePos(name...

2018-08-27 19:35:19 6317 4

原创 Lock8锁

前言：Lock 替代了 synchronizedCondition 替代了 Object中的wait 和notify 方法为什么Lock会替代synchroized? synchronized的局限性占有锁的线程等待IO或者其他原因被阻塞，没有释放锁的情况下，其他线程一直阻塞多个线程同时读写文件的时候，读和读操作也会发生冲突我们没有办法知道当前...

2018-08-27 19:35:06 794 1

原创 Mysql之索引

一、索引简介1、定义：索引就是帮助mysql高效获得数据的数据结构，简单理解就是“排好序的快速查找的数据结构”2、索引详解：在数据之外，数据库系统还维护着满足特定查找算法的数据结构，这些数据结构以某种方式引用（指向）数据，这样就可以在这些数据结构上实现高级查找算法。这种数据结构，就是索引。下图就是一种可能的索引方式示例：左边是数据表，一共有两列七条记录，最左边的是数据记录的...

2018-08-26 10:57:36 283

原创 mysql百万数据插入脚本

在公司测试中难免使用几百万条数据测试，这就需要向自己的数据库中短时间插入百万数据，在这就有脚本可以现成使用，本案例用的是员工和部门的关系，可以举一反三。1、建表# 新建库create database bigData;use bigData; #1 建表deptCREATE TABLE dept( id INT UNSIGNED PRIMARY KEY AUTO_INC...

2018-08-25 11:14:59 7523 4

转载 mysql之事务

事务就是一组原子性的SQL查询，或者说一个独立的工作单元。如果数据库引擎能够成功地对数据应用该组查询的全部语句，那么久执行该组查询。如果其中任何一条语句因为崩溃或其他原因无法执行，那么所有语句都不会执行。事务的概念简单的说就是，事务内的语句，要么全部执行成功，要么全部执行失败。事务的四大特性（ACID）：1.原子性（atomicity）：一个事务必须视为一个不可分割的最小工作单...

2018-08-22 08:32:25 337

原创 JUC之线程通知

上一次说道，线程操作记住：线程操作资源类，高内聚低耦合，这是上下（wait和notify）口诀：判断/干活/通知，虚假唤醒一、案例 1（两个线程）现在两个线程，可以操作初始值为零的一个变量，实现一个线程对该变量加1，一个线程对该变量减1，交替，来10轮。资源类：可以结合判断干活通知，注意是if判断只判断一次，后面会讲到class ShareData{...

2018-08-21 21:00:34 306

原创 JUC之线程抢占资源

创建线程重要！！！1、怎么做多线程题？口诀：线程操作资源类，高内聚低耦合(指的是操作)不管会不会，先创建资源类，在资源类里封装对资源的操作，然后在创建多个线程，在操作这个资源类2、多线程操作时候，就会产生线程安全问题，比如，之前提过的 i++ 就是线程不安全,JUC提供了安全解决措施，在 java.util.concurrent.locks包下，怎么做到线程安全，就是尽量做到原...

2018-08-21 20:17:54 611

原创 JUC之集合

常见的有哪些是线程不安全的？1、集合类是不安全的：ArrayList，HashSet，HashMap等等都是不安全2、i++, ++i 也是不安全JUC什么？1、juc是java.util.concurrent包的简称，在此包中增加了在并发编程中很常用的实用工具类，用于定义类似于线程的自定义子系统，包括线程池、异步IO 和轻量级任务框架。提供可调的、灵活的线程池。还提供了设计用于多...

2018-08-21 19:42:24 791

原创 Lombok的安装和使用

Lombok使用介绍在项目中使用Lombok可以减少很多重复代码的书写。比如说getter/setter/toString等方法的编写。主要是他可以动态的生成get，set等等方法，在企业中是非常实用的，修改属性时，不用在去修改get，set方法，tostring方法等IDEA中的安装打开IDEA的Setting –> 选择Plugins选项 –> 选择Browse...

2018-08-21 19:03:46 499

原创电信客服项目之协处理器

协处理器在本项目中主要是用来，在向hbase中put一条数据时同时也要put一条call1和call2颠倒的数据注意：1、协处理器如果是配置到hbase-site.xml文件中，默认是对全部的表都进行处理2、如果不配置到xml文件，只指定某个表，那么就只对改表有效3、注意将consumer进行编译，打包，打包后上传到hbase的lib包下，记住记住，一定要分发这个jar包4、一...

2018-08-17 20:59:26 589

原创 Hbase之协处理器

官方介绍https://blogs.apache.org/hbase/entry/coprocessor_introduction使用它一定要慎重，一旦协处理器出问题，则hbase将起不来，不过也有配置进行修复，修复配置见最后协处理器简介可理解为服务端的拦截器，可根据需求确定拦截点，再重写这些拦截点对应的方法客户端的读取API配合筛选机制可控制返回的数据量进一步优化...

2018-08-17 20:50:59 1205

原创电信客服项目查询方式之过滤器

当数据插入到hbase中，可以进行查询，查询方式可以分为两种，一个scan，一个startRow和stopRow，两种方式最好是使用startRow，因为，这种查询块，而本篇先讲述scan遍历方式，主要是是结合Filter过滤器一、先引入工具类HBaseFilterUtilHBaseFilterUtil是分装了各种过滤器，不过都是值过滤器，有大于小于的，有过滤器链的，也有包含and和or条...

2018-08-17 20:25:57 301

原创电信客服项目只HbaseUtil和HbaseDao

一、HbaseUtil在HbaseUtil中具体要做这些事，封装一下方法：创建命名空间，创建表，判断表是否存在，分区键生成，rowkey设计重点的是分区键的设计和rowkey的生成1、创建命名空间和判断表存不存在比较简单 public static void createNamespace(String ns) throws IOException { ...

2018-08-17 19:53:53 583

原创电信客服项目之分区键和rowkey设计

一、分区键设计分区是解决数据倾斜的有效有段，分区比较简单, 关键在于需要分多少区，比如本项目分六个区形式为 00|00| 01|01| 02|02| 03|.........05| 为什么每个分区号要加竖线呢？因为，竖线的值比较大比下线等大，而rowkey分哪个区是需要按位比较的...

2018-08-17 19:50:33 584

原创电信客服项目之Consumer工程

先用kafka消费者API接受数据，然后在用hbase的api写入hbase，需要创建一个maven工程，一、创建工程如下：1、constant包：主要存放常用的常量比如：hbase的配置文件public static final Configuration hBaseConfiguration = HBaseConfiguration.create();2、utils...

2018-08-17 19:15:42 424

原创电信客服项目之总体架构

本项目需求是：统计每天、每月以及每年的每个人的通话次数及时长架构图：本项目是一个离线项目，流程是：一、生产数据是实际生产环境中的一些日志文件等，其中该日志文件需要进行数据清洗，然后获取有效字段，本电信项目需要的有效字段有：主叫手机号：call1 ，被叫手机号：call2，建立通话的时间：buildTime，通话时长：duration二、使用Flume收集日志，然后传输到Ka...

2018-08-17 18:58:43 1597

原创 Kafka的消费者API

kafka官方文档APIhttp://kafka.apache.org/090/javadoc/index.html?org/apache/kafka/clients/consumer/KafkaConsumer.html一、高级APIkafka自己维护offset分区等等：创建和设置KafkaConsumer对象，记住要记得去订阅topic即调用subscribe方法publi...

2018-08-15 15:11:12 4442 2

原创 Kafka的生产者API(新)

主要是创建和设置KafkaProducer这个对象，分为两种：一个是带回调函数的，一个是不带的1、创建生产者这个是不带回调函数，其中像端口号等配置项都封装在了ProducerConfig这个类里，也可以使用 ProducerConfig.BOOTSTRAP_SERVERS_CONFIG 这种方式去设置属性，这样比下面这种好记public class NewProducer {...

2018-08-15 14:44:41 1903

原创大数据中常见端口

常见端口汇总：Hadoop： 50070：HDFS WEB UI端口 8020 ：高可用的HDFS RPC端口 9000 ：非高可用的HDFS RPC端口 8088 ： Yarn 的WEB UI 接口 8485 ： JournalNode 的RPC端口 8019 ： ZKFC端口 19888：jobhis...

2018-08-14 21:03:47 4222

原创 Kafka集群部署和命令

一、部署注意：kafka启动之前一定是要先将zookeeper集群先起起来的broker：9092就是kafka的服务端口，zookeeper：21811）解压安装包$ tar -zxvf kafka_2.11-0.11.0.0.tgz -C /opt/module/2）修改解压后的文件名称$ mv kafka_2.11-0.11.0.0/ kafka3）在/o...

2018-08-14 20:56:17 973

转载 Kafka最全概述和架构

本篇是属于转载，在加上自己的理解，原文是https://blog.csdn.net/ychenfeng/article/details/74980531KafkaKafka是最初由Linkedin公司开发，是一个分布式、支持分区的（partition）、多副本的（replica），基于zookeeper协调的分布式消息系统，它的最大的特性就是可以实时的处理大量数据以满足各种需求场景：比如基...

2018-08-14 20:36:41 1953 4

转载 Hive窗口函数Over和排序函数Rank

简介本文主要介绍hive中的窗口函数.hive中的窗口函数和sql中的窗口函数相类似,都是用来做一些数据分析类的工作,一般用于olap分析概念我们都知道在sql中有一类函数叫做聚合函数,例如sum()、avg()、max()等等,这类函数可以将多行数据按照规则聚集为一行,一般来讲聚集后的行数是要少于聚集前的...

2018-08-13 20:33:39 8653

原创 Hive之爆炸函数

本部分主要讲述了列转行函数，是最最最最常用的函数，爆炸函数1、函数说明1）explode(col)：explode 函数是UFTF函数，将hive一列中复杂的array或者map结构拆分成多行。Explode函数是不允许在select再有其他字段,explode(ARRAY) 列表中的每个元素生成一行explode(MAP) map中每个key-value对，生成一...

2018-08-13 20:11:50 23554

原创 Hive函数之行转列

介绍三种常用函数，空字段赋值，行转列，case when，一、NVL函数空字段赋值，语法：nvl(string1，replaceValue)，当某值为空时调用，二、case when就相当于java中switch case，记得最后一定要加end，else就相当于java中的defalut举例：select dept_id, sum(case sex when...

2018-08-13 19:43:56 14110

原创 Hive分桶和抽样查询

一、分桶分区针对的是数据的存储路径；分桶针对的是数据文件，就相当于hadoop里面的真正的分区。 ★怎么选择桶？默认时对某一列进行hash，使用hashcode对桶的个数求模取余，确定哪一条记录进入哪一个桶。分桶后，桶内有序，整体不一定有序。分区提供一个隔离数据和优化查询的便利方式。不过，并非所有的数据集都可形成合理的分区，特别是之前所提到过的要确定...

2018-08-13 19:28:37 2331 1

原创 Hive查询之排序

一、查询语句注意事项1、where子句中不能使用字段别名2、like和rlike1）使用LIKE运算选择类似的值2）选择条件可以包含字符或数字:% 代表零个或多个字符(任意个字符)。_ 代表一个字符。3）RLIKE子句是Hive中这个功能的一个扩展，其可以通过Java的正则表达式这个更强大的语言来指定匹配条件。4）案例实操（1）查找以2开头薪水的员...

2018-08-13 19:10:23 10035

原创 Hive数据导入导出

Hive的数据导入导出指的是将数据从本地或者是hdfs导入到表中，其中本地导入的话，其实是两部操作，一是上传到hdfs，二是在hdfs移动到仓库位置。记住，本地上传一定要加local一、数据导入1、Load模式1）语法hive> load data [local] inpath 文件路径 [overwrite] into table 表名 [partition (pa...

2018-08-13 18:29:49 740

原创 Hive的DDL操作

本部分主要是讲述了两部分：一个是对数据库的增删查改，一个是对表的增删改重点：创建表的完整创建过程，分区表的理解和操作引言其实alter命令就是在操作元数据，其实就是对mysql的数据库中的元数据进行操作一、数据库的DDL1、创建数据库1）创建一个数据库，数据库在HDFS上的默认存储路径是/user/hive/warehouse/*.db。hive (de...

2018-08-11 16:57:13 2083 1

原创 Hive数据类型---以集合类型为主

1、hive的常见的数据结构 Hive数据结构 Java数据结构 int int bigint long string string hive的数据类型基本没变，除了long变成bigint之外，其他的都没有变2、集合类型数据类型描述语法示例 STRU...

2018-08-11 16:22:21 1735

原创 Hive的常见属性配置和其他命令

Hive的一些常见配置有，比如：更改数据仓库位置，在shell中显示数据库名，执行查询时显示字段名等一、Hive中的常见的其他命令$ bin/hive -help可以查看hive的命令以及解释1、“-e” 不进入hive窗口就可以执行sql$ bin/hive -e "select id from student;"2、“-f”执行脚本中sql语句执行文件中的sql语句并将...

2018-08-11 11:59:00 802

原创 Hive安装以及和Mysql关联

一、Hive的安装地址1．Hive官网地址http://hive.apache.org/2．文档查看地址https://cwiki.apache.org/confluence/display/Hive/GettingStarted3．下载地址http://archive.apache.org/dist/hive/4．github地址https://github.co...

2018-08-11 11:44:01 1342

原创 Hive简介和架构

第1章 Hive基本概念1.1 什么是HiveHive：由Facebook开源用于解决海量结构化日志的数据统计。Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类SQL查询功能。本质是：将HQL转化成MapReduce程序？怎么进行转换的，详见https://blog.csdn.net/qq_26442553/article/details...

2018-08-11 11:14:09 14366 1

原创 maven中log4j的配置文件

一、在resources中先创建一个log4j.properties的文件二、在文件中添加以下内容log4j.rootLogger=INFO, stdoutlog4j.appender.stdout=org.apache.log4j.ConsoleAppenderlog4j.appender.stdout.layout=org.apache.log4j.PatternLayoutl...

2018-08-09 10:01:15 1907 1

原创 Kafka集群部署及命令行操作

前提是：zookeeper集群已经搭建完毕具体步骤见：https://blog.csdn.net/student__software/article/details/814867691、集群规划hadoop102 hadoop103 hadoop104zk ...

2018-08-07 19:18:27 3554

原创 Zookeeper集群搭建

1．集群规划在hadoop102、hadoop103和hadoop104三个节点上部署Zookeeper。2．解压安装1）解压zookeeper安装包到/opt/module/目录下 tar -zxvf zookeeper-3.4.10.tar.gz -C /opt/module/（2）在/opt/module/zookeeper-3.4.10/这个目录下创建zkData...

2018-08-07 19:11:49 293

原创 Kafka简介和架构

一、简介Kafka是一个分布式消息队列。★Kafka对消息保存时根据Topic进行归类，发送消息者称为Producer，消息接受者称为Consumer，此外kafka集群有多个kafka实例组成，每个实例(server)称为broker。无论是kafka集群，还是consumer都依赖于zookeeper集群保存一些meta信息，来保证系统可用性。二、优点（相比较于Flume）在企业中...

2018-08-07 19:02:21 20872

dubbo-admin的war包

JDK10全版本以及之前版本

JavaSE小项目---客户管理系统

SVN-team同步插件

Metro后台管理模板源码

空空如也