自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

莫慌 吃口药

固步自封,必将自取灭亡!

  • 博客(73)
  • 收藏
  • 关注

原创 IO架构体系

2019-10-03 20:56:59 270

原创 多线程图

2019-10-03 20:55:55 188

原创 JAVA集合图

2019-10-03 16:21:58 171

原创 正则表达式图

2019-10-03 16:20:41 604

原创 JAVA异常继承图

2019-10-03 16:18:06 263

原创 JUnit

import static org.junit.Assert.*;import org.junit.Before;import org.junit.BeforeClass;import org.junit.Test;import junit.framework.Assert;/*** 演示了一个简单的JUnit4的方法* 1.首先要把JUnit4的jar加入到build ...

2019-10-03 16:14:35 248

原创 策略模式

策略模式(Strategy Pattern): 接口,只有一个方法,子类实现 ----> https://www.jianshu.com/p/7b7de81cdfbe 策略模式简记:一个策略接口,若干具体的策略实现类,封装一个用于更新和执行策略的上下文Context,其构造函数和设置策略函数功能是一致的。策略模式概要策略模式是对算法的包装,是把使...

2019-10-03 15:59:27 165

原创 设计模式

单例模式:懒汉式:单例还是静态内部类式最优:优点:利用了classloader机制来保证初始化instance时只有一个线程,线程安全且没有性能损耗 主类实例化之后,内部类才能开始实例化,所以调用的时候才会去创建对象;因为是static final和直接new的,所以不用考虑多线程的问题!public class Singleton { private Singl...

2019-10-03 15:28:10 110

原创 hash表

Hash,一般翻译做“散列”,也有直接音译为“哈希”的,它是基于快速存取的角度设计的,也是一种典型的“空间换时间”的做法。顾名思义,该数据结构可以理解为一个线性表,但是其中的元素不是紧密排列的,而是可能存在空隙。 散列表(Hash table,也叫哈希表),是根据关键码值(Key value)而直接进行访问的数据结构。也就是说,它通过把关键码值映射到表中一个位置来访问记录,以加快查找...

2019-10-03 12:04:10 235

原创 快速排序

快速排序:一、------------------------------------------------------------快速排序平均时间复杂度为O(N*logN),最差的情况下,整个序列都已经有序且完全倒序 ,为 O( n^2 )空间复杂度为: O(logn) ~ O( n ),占用较多内存,还可以接受,比归并排序好多了。真正消耗空间的就是递归调用,因为每次递归就要...

2019-10-02 23:51:34 128

原创 归并排序

递归的佛系理解:事实上,我们并不是每个函数都需要跟进去看执行结果的,比如我们在自己的函数中调用printf函数时,并没有钻进去看它是怎么打印的,因为我们相信它能完成打印工作。如果你相信你正在写的递归函数是正确的,并调用它,然后在此基础上写完这个递归函数,那么它就会是正确的,从而值得你相信它正确。以上两句话就是要明白一个道理:不要把自己放进递归函数中,放进一些简单的递归如阶乘,可能你还能理...

2019-10-02 23:50:37 262

原创 数据结构之双向链表、二叉树

package exam;/** * 定义双向链表 * 1.头、尾节点、链表长度 * 2.自定义节点Node,属性前指针、后指针、内容(preNode、nextNode、ele) * 3.节点前、节点后添加元素方法; 节点删除方法; 重写输出链表方法toString * */public class MyLinkedList{ private M...

2019-10-02 23:49:00 435

原创 思维案例

public class Demo0520Practice { public static void main(String[] args) throws IOException { //等边三角形 Triangle //正方形 square //空心菱形 diamond *// diamond(); //去...

2019-10-02 23:27:38 185

转载 win10找不到vm8、wm1网卡

转载:https://blog.csdn.net/p942005405/article/details/89914620

2019-09-22 21:34:23 1604

原创 MapReduceII

Mapreduce 程序效率的瓶颈在于:CPU、内存、磁盘、网络MapReduce优化方法主要从六个方面考虑:数据输入、Map阶段、Reduce阶段、IO传输、数据倾斜问题、常用的调优参数。数据输入:合并小文件,采用CombineTextInputFormat来作为输入,解决输入端大量小文件场景Map阶段:减少溢写(spill)次数、减少合并(merge)次数、不影响业务逻辑前提下,进...

2019-09-16 12:56:38 144

原创 HDFS调优

一、hdfs优化:小文件优化 (块处理、150B元数据索引,索引文件过大导致索引速度变慢)1)Hadoop Archive(对外一个文件,对内多个小文件) 是一个高效地将小文件放入HDFS块中的文件存档工具,它能够将多个小文件打包成一个HAR文件,这样就减少了namenode的内存使用。2)Sequence file sequence file由一系列的二进制key/value组成,...

2019-09-16 12:01:06 700

原创 HBASE优化II

hbase调优1、高可用 Hmaster 负责监控 RegionServer 的生命周期,均衡 RegionServer 的负载2、预分区3、rowkey的设计 散列原则、长度原则4、hbase的列族不宜太多,两个就已经很多了(列族多会增加寻址,影响效率;如,region分裂时,是按rowkey来切割,会被分到不同hregionserver上,寻址复杂)5、关闭Hlog(...

2019-09-16 11:06:47 169

原创 HIVE优化II

hive的优化1.环境的优化(内存分配、负载分配等)2.应用配置属性方面的优化3.优化hql语句查看explain执行计划:使用explain关键字加上hql语句生成执行计划一个hql语句将会有一个或者多个stage,每一个stage相当于一个mr的job,stage可以是fetch,map join、limit等操作。每一个stage都会按照依赖关系依次执行,没有依赖关系的可以...

2019-09-16 10:24:15 239

转载 flink学习资料

https://mp.weixin.qq.com/s?__biz=MzU3MzgwNTU2Mg==&mid=2247485843&idx=1&sn=19b2525d8db9e9fdbc0eafbc1c20f5e5&chksm=fd3d4f06ca4ac6108cbde41cb034253c430bca34d5465a56e41f7c1fef5821d8479e336...

2019-08-27 17:46:10 181

原创 spark开发性能调优

调优策略 ---参照老中根据log,yarn UI各stage的运行情况,结合这里的调优策略,多进行实验,实践出真理!没有经过任何调优手段的spark作业,16个小时;三板斧下来,就可以到5个小时;然后非常重要的一个调优,影响特别大,shuffle调优,2~3个小时;应用了10个以上的性能调优的技术点,JVM+广播,30分钟。16小时~30分钟。开发的时候,...

2019-08-26 16:32:51 297

原创 Hive调优

2019-03-139.1 Fetch抓取Fetch抓取是指,Hive中对某些情况的查询可以不必使用MapReduce计算。例如:SELECT * FROM employees;在这种情况下,Hive可以简单地读取employee对应的存储目录下的文件,然后输出查询结果到控制台。在hive-default.xml.template文件中hive.fetch.task.conversio...

2019-08-26 08:54:36 124

原创 DataSet、Structured Streaming的使用

DataSetpackage cn.ibeifeng.sparkimport org.apache.spark.sql.SparkSessionobject StructuredNetworkWordCount { def main(args: Array[String]) { val spark = SparkSession .builder()...

2019-03-07 21:26:49 384

原创 spark电商15个经典代码

1.accumulate累加代码:public class SessionAggrStatAccumulator implements AccumulatorParam<String> { private static final long serialVersionUID = 6311074555136039130L; //zero方法,其实主要...

2019-03-04 21:04:08 480

原创 道路交通实时流量监控预测系统一些学习整理

   道路交通实时流量监控预测系统      项目背景: 出行路线规划、交通部门对道路的规划与建设      涉及那些步骤: 并发采集数据(kafka)、实时数据处理(spark)、高效内存存储(redis)、建模实时预测(MLlib)、页面展示       具体的业务需求:代码编程中提取吧(基本就是走一遍全部流程而已,没什么特定的业务需求)                        ...

2019-02-27 15:50:40 4498 5

原创 大数据APP端思路

如果你是在一个互联网公司,然后你的公司现在也在做移动互联网,做了一个手机app那么你的手机app的用户,每次进行点击,或者是一些搜索操作的时候,都会跟你的远程的后端服务器做一次交互也就是说,你的手机app,首先会往后端服务器发送一个请求,然后你的后端服务器会给你的手机app返回一个响应,响应的内容可能是图片、或者文字、或者json此时,就完成了一次你的移动端app和后端服务器之间的交互过程...

2019-02-26 17:17:21 618

原创 新闻网站关键指标离线统计Spark作业

package com.spark.study.sparksql;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaSparkContext;import org.apache.spark.sql.DataFrame;import org.apache.spark.sql.hive.HiveCo...

2019-02-26 17:16:29 396

原创 spark2.0新增项目模块(用户活跃度分析  DataSet)

  package sparkupdatedemo.datasetimport org.apache.spark.sql.SparkSession/** * 用户活跃度分析 * * 1、指定时间段内访问次数最多的10个用户 * 2、指定时间段内购买商品金额最多的10个用户 * 3、最近周期内相对之前一个周期访问次数增长最快的10个用户 * 4、最近周期内相...

2019-02-26 17:10:14 335

原创 SparkSession与SparkContext SparkConf SQLContext HiveContext StreamingContext

SparkSession与SparkContext SparkConf SQLContext HiveContext StreamingContext参考blog:https://blog.csdn.net/dufufd/article/details/790888911.SparkContext:val sparkConf = new SparkConf().setAppName("S...

2019-02-24 13:30:35 5053

转载 学习资源收集

1.一起自学吧:2.潭州课堂:https://jinshuju.net/f/ltNf5dhttps://docs.qq.com/sheet/DRGVsQ1pqT2NmRlFt?tab=BB08J23.基于Spark的机器学习-智能客户系统项目实战链接:https://pan.baidu.com/s/1yZSj1BuyFHHMS-VQM1pUmQ提取码:zkn1...

2019-02-21 15:08:41 5402

原创 SparkStream 性能调优思路以及原理图

一、确保HA高可用性:High Availability如果有些数据丢失,或者节点挂掉;那么不能让你的实时计算程序挂了;必须做一些数据上的冗余副本,保证你的实时计算程序可以7 * 24小时的运转。通过一整套方案(3个步骤),开启和实现实时计算程序的HA高可用性,保证一些关键数据都有其冗余副本,不至于因为节点挂掉或者其他原因导致数据丢失。1、updateStateByKey、win...

2019-01-23 16:26:12 1213

原创 Spark SQL性能调优以及原理图

之前使用在Spark Core中的数据倾斜解决方案,全部都可以直接套用在Spark SQL上:1、聚合源数据2、过滤导致倾斜的key3、提高shuffle并行度:spark.sql.shuffle.partitions4、双重group by5、reduce join转换为map join:spark.sql.autoBroadcastJoinThreshold6、采样倾斜...

2019-01-20 00:02:31 340

原创 大数据职业规划所感所悟

大数据方向的职业发展规划的个人的积累: 逐步提升方向      大数据业务:用户行为、风控、征信。。。等hive + java + 算法 + 业务 +架构(高并发) -------------------------linux运维工程师 转型 大数据运维工程师:精通linux,hadoop、spark、storm、hbase(源码级别)集群的搭建与运维,集群的升级、二次开发...

2019-01-19 23:42:38 3571 1

原创 clouder manager完整搭建cdh集群

搭建cdh全过程1)根据文档 “安装RedHat+Linux+7” 安装好centos7的操作系统 (3台机器,内存9g、3g、3g; 磁盘40g、15g、15g)实际配置多台机器:?1)利用cdh配置大数据集群环境2)制作一个系统(里面已经安装了所需要的软件)3)系统安装,然后主节点肯定从头到尾配置(里面会存在mysql,clouderManager-Server,,,从节点所...

2018-12-31 13:04:34 2979

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除