不急吃口药-CSDN博客

原创 IO架构体系

2019-10-03 20:56:59 270

原创多线程图

2019-10-03 20:55:55 188

原创 JAVA集合图

2019-10-03 16:21:58 171

原创正则表达式图

2019-10-03 16:20:41 604

原创 JAVA异常继承图

2019-10-03 16:18:06 263

原创 JUnit

import static org.junit.Assert.*;import org.junit.Before;import org.junit.BeforeClass;import org.junit.Test;import junit.framework.Assert;/*** 演示了一个简单的JUnit4的方法* 1.首先要把JUnit4的jar加入到build ...

2019-10-03 16:14:35 248

原创策略模式

策略模式(Strategy Pattern): 接口,只有一个方法,子类实现 ----> https://www.jianshu.com/p/7b7de81cdfbe 策略模式简记：一个策略接口，若干具体的策略实现类，封装一个用于更新和执行策略的上下文Context，其构造函数和设置策略函数功能是一致的。策略模式概要策略模式是对算法的包装，是把使...

2019-10-03 15:59:27 165

原创设计模式

单例模式：懒汉式:单例还是静态内部类式最优:优点：利用了classloader机制来保证初始化instance时只有一个线程，线程安全且没有性能损耗主类实例化之后，内部类才能开始实例化,所以调用的时候才会去创建对象;因为是static final和直接new的,所以不用考虑多线程的问题!public class Singleton { private Singl...

2019-10-03 15:28:10 110

原创 hash表

Hash，一般翻译做“散列”，也有直接音译为“哈希”的，它是基于快速存取的角度设计的，也是一种典型的“空间换时间”的做法。顾名思义，该数据结构可以理解为一个线性表，但是其中的元素不是紧密排列的，而是可能存在空隙。散列表（Hash table，也叫哈希表），是根据关键码值(Key value)而直接进行访问的数据结构。也就是说，它通过把关键码值映射到表中一个位置来访问记录，以加快查找...

2019-10-03 12:04:10 235

原创快速排序

快速排序:一、------------------------------------------------------------快速排序平均时间复杂度为O(N*logN)，最差的情况下，整个序列都已经有序且完全倒序，为 O( n^2 )空间复杂度为： O(logn) ~ O( n )，占用较多内存，还可以接受，比归并排序好多了。真正消耗空间的就是递归调用，因为每次递归就要...

2019-10-02 23:51:34 128

原创归并排序

递归的佛系理解：事实上，我们并不是每个函数都需要跟进去看执行结果的，比如我们在自己的函数中调用printf函数时，并没有钻进去看它是怎么打印的，因为我们相信它能完成打印工作。如果你相信你正在写的递归函数是正确的，并调用它，然后在此基础上写完这个递归函数，那么它就会是正确的，从而值得你相信它正确。以上两句话就是要明白一个道理：不要把自己放进递归函数中，放进一些简单的递归如阶乘，可能你还能理...

2019-10-02 23:50:37 262

原创数据结构之双向链表、二叉树

package exam;/** * 定义双向链表 * 1.头、尾节点、链表长度 * 2.自定义节点Node，属性前指针、后指针、内容（preNode、nextNode、ele） * 3.节点前、节点后添加元素方法；节点删除方法；重写输出链表方法toString * */public class MyLinkedList{ private M...

2019-10-02 23:49:00 435

原创思维案例

public class Demo0520Practice { public static void main(String[] args) throws IOException { //等边三角形 Triangle //正方形 square //空心菱形 diamond *// diamond(); //去...

2019-10-02 23:27:38 185

转载 win10找不到vm8、wm1网卡

转载：https://blog.csdn.net/p942005405/article/details/89914620

2019-09-22 21:34:23 1604

原创 MapReduceII

Mapreduce 程序效率的瓶颈在于：CPU、内存、磁盘、网络MapReduce优化方法主要从六个方面考虑：数据输入、Map阶段、Reduce阶段、IO传输、数据倾斜问题、常用的调优参数。数据输入：合并小文件，采用CombineTextInputFormat来作为输入，解决输入端大量小文件场景Map阶段：减少溢写（spill）次数、减少合并（merge）次数、不影响业务逻辑前提下，进...

2019-09-16 12:56:38 144

原创 HDFS调优

一、hdfs优化：小文件优化（块处理、150B元数据索引，索引文件过大导致索引速度变慢）1）Hadoop Archive（对外一个文件，对内多个小文件）是一个高效地将小文件放入HDFS块中的文件存档工具，它能够将多个小文件打包成一个HAR文件，这样就减少了namenode的内存使用。2）Sequence file sequence file由一系列的二进制key/value组成，...

2019-09-16 12:01:06 700

原创 HBASE优化II

hbase调优1、高可用 Hmaster 负责监控 RegionServer 的生命周期，均衡 RegionServer 的负载2、预分区3、rowkey的设计散列原则、长度原则4、hbase的列族不宜太多，两个就已经很多了(列族多会增加寻址，影响效率；如，region分裂时，是按rowkey来切割，会被分到不同hregionserver上，寻址复杂)5、关闭Hlog(...

2019-09-16 11:06:47 169

原创 HIVE优化II

hive的优化1.环境的优化（内存分配、负载分配等）2.应用配置属性方面的优化3.优化hql语句查看explain执行计划：使用explain关键字加上hql语句生成执行计划一个hql语句将会有一个或者多个stage，每一个stage相当于一个mr的job,stage可以是fetch,map join、limit等操作。每一个stage都会按照依赖关系依次执行，没有依赖关系的可以...

2019-09-16 10:24:15 239

转载 flink学习资料

https://mp.weixin.qq.com/s?__biz=MzU3MzgwNTU2Mg==&mid=2247485843&idx=1&sn=19b2525d8db9e9fdbc0eafbc1c20f5e5&chksm=fd3d4f06ca4ac6108cbde41cb034253c430bca34d5465a56e41f7c1fef5821d8479e336...

2019-08-27 17:46:10 181

原创 spark开发性能调优

调优策略 ---参照老中根据log，yarn UI各stage的运行情况，结合这里的调优策略，多进行实验，实践出真理！没有经过任何调优手段的spark作业，16个小时；三板斧下来，就可以到5个小时；然后非常重要的一个调优，影响特别大，shuffle调优，2~3个小时；应用了10个以上的性能调优的技术点，JVM+广播，30分钟。16小时~30分钟。开发的时候，...

2019-08-26 16:32:51 297

原创 Hive调优

2019-03-139.1 Fetch抓取Fetch抓取是指，Hive中对某些情况的查询可以不必使用MapReduce计算。例如：SELECT * FROM employees;在这种情况下，Hive可以简单地读取employee对应的存储目录下的文件，然后输出查询结果到控制台。在hive-default.xml.template文件中hive.fetch.task.conversio...

2019-08-26 08:54:36 124

原创 DataSet、Structured Streaming的使用

DataSetpackage cn.ibeifeng.sparkimport org.apache.spark.sql.SparkSessionobject StructuredNetworkWordCount { def main(args: Array[String]) { val spark = SparkSession .builder()...

2019-03-07 21:26:49 384

原创 spark电商15个经典代码

1.accumulate累加代码：public class SessionAggrStatAccumulator implements AccumulatorParam<String> { private static final long serialVersionUID = 6311074555136039130L; //zero方法，其实主要...

2019-03-04 21:04:08 480

原创道路交通实时流量监控预测系统一些学习整理

道路交通实时流量监控预测系统项目背景：出行路线规划、交通部门对道路的规划与建设涉及那些步骤：并发采集数据(kafka)、实时数据处理(spark)、高效内存存储(redis)、建模实时预测(MLlib)、页面展示具体的业务需求：代码编程中提取吧（基本就是走一遍全部流程而已，没什么特定的业务需求） ...

2019-02-27 15:50:40 4498 5

原创大数据APP端思路

如果你是在一个互联网公司，然后你的公司现在也在做移动互联网，做了一个手机app那么你的手机app的用户，每次进行点击，或者是一些搜索操作的时候，都会跟你的远程的后端服务器做一次交互也就是说，你的手机app，首先会往后端服务器发送一个请求，然后你的后端服务器会给你的手机app返回一个响应，响应的内容可能是图片、或者文字、或者json此时，就完成了一次你的移动端app和后端服务器之间的交互过程...

2019-02-26 17:17:21 618

原创新闻网站关键指标离线统计Spark作业

package com.spark.study.sparksql;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaSparkContext;import org.apache.spark.sql.DataFrame;import org.apache.spark.sql.hive.HiveCo...

2019-02-26 17:16:29 396

原创 spark2.0新增项目模块（用户活跃度分析 DataSet）

package sparkupdatedemo.datasetimport org.apache.spark.sql.SparkSession/** * 用户活跃度分析 * * 1、指定时间段内访问次数最多的10个用户 * 2、指定时间段内购买商品金额最多的10个用户 * 3、最近周期内相对之前一个周期访问次数增长最快的10个用户 * 4、最近周期内相...

2019-02-26 17:10:14 335

原创 SparkSession与SparkContext SparkConf SQLContext HiveContext StreamingContext

SparkSession与SparkContext SparkConf SQLContext HiveContext StreamingContext参考blog：https://blog.csdn.net/dufufd/article/details/790888911.SparkContext：val sparkConf = new SparkConf().setAppName("S...

2019-02-24 13:30:35 5053

转载学习资源收集

1.一起自学吧：2.潭州课堂：https://jinshuju.net/f/ltNf5dhttps://docs.qq.com/sheet/DRGVsQ1pqT2NmRlFt?tab=BB08J23.基于Spark的机器学习-智能客户系统项目实战链接：https://pan.baidu.com/s/1yZSj1BuyFHHMS-VQM1pUmQ提取码：zkn1...

2019-02-21 15:08:41 5402

原创 SparkStream 性能调优思路以及原理图

一、确保HA高可用性：High Availability如果有些数据丢失，或者节点挂掉；那么不能让你的实时计算程序挂了；必须做一些数据上的冗余副本，保证你的实时计算程序可以7 * 24小时的运转。通过一整套方案（3个步骤），开启和实现实时计算程序的HA高可用性，保证一些关键数据都有其冗余副本，不至于因为节点挂掉或者其他原因导致数据丢失。1、updateStateByKey、win...

2019-01-23 16:26:12 1213

原创 Spark SQL性能调优以及原理图

之前使用在Spark Core中的数据倾斜解决方案，全部都可以直接套用在Spark SQL上：1、聚合源数据2、过滤导致倾斜的key3、提高shuffle并行度：spark.sql.shuffle.partitions4、双重group by5、reduce join转换为map join：spark.sql.autoBroadcastJoinThreshold6、采样倾斜...

2019-01-20 00:02:31 340

原创大数据职业规划所感所悟

大数据方向的职业发展规划的个人的积累：逐步提升方向大数据业务：用户行为、风控、征信。。。等hive + java + 算法 + 业务 +架构（高并发） -------------------------linux运维工程师转型大数据运维工程师：精通linux，hadoop、spark、storm、hbase（源码级别）集群的搭建与运维，集群的升级、二次开发...

2019-01-19 23:42:38 3571 1

原创 clouder manager完整搭建cdh集群

搭建cdh全过程1）根据文档 “安装RedHat+Linux+7” 安装好centos7的操作系统（3台机器，内存9g、3g、3g；磁盘40g、15g、15g）实际配置多台机器：？1)利用cdh配置大数据集群环境2)制作一个系统(里面已经安装了所需要的软件)3)系统安装，然后主节点肯定从头到尾配置(里面会存在mysql，clouderManager-Server，，，从节点所...

2018-12-31 13:04:34 2979

莫慌吃口药