- 博客(73)
- 收藏
- 关注
原创 JUnit
import static org.junit.Assert.*;import org.junit.Before;import org.junit.BeforeClass;import org.junit.Test;import junit.framework.Assert;/*** 演示了一个简单的JUnit4的方法* 1.首先要把JUnit4的jar加入到build ...
2019-10-03 16:14:35
248
原创 策略模式
策略模式(Strategy Pattern): 接口,只有一个方法,子类实现 ----> https://www.jianshu.com/p/7b7de81cdfbe 策略模式简记:一个策略接口,若干具体的策略实现类,封装一个用于更新和执行策略的上下文Context,其构造函数和设置策略函数功能是一致的。策略模式概要策略模式是对算法的包装,是把使...
2019-10-03 15:59:27
165
原创 设计模式
单例模式:懒汉式:单例还是静态内部类式最优:优点:利用了classloader机制来保证初始化instance时只有一个线程,线程安全且没有性能损耗 主类实例化之后,内部类才能开始实例化,所以调用的时候才会去创建对象;因为是static final和直接new的,所以不用考虑多线程的问题!public class Singleton { private Singl...
2019-10-03 15:28:10
110
原创 hash表
Hash,一般翻译做“散列”,也有直接音译为“哈希”的,它是基于快速存取的角度设计的,也是一种典型的“空间换时间”的做法。顾名思义,该数据结构可以理解为一个线性表,但是其中的元素不是紧密排列的,而是可能存在空隙。 散列表(Hash table,也叫哈希表),是根据关键码值(Key value)而直接进行访问的数据结构。也就是说,它通过把关键码值映射到表中一个位置来访问记录,以加快查找...
2019-10-03 12:04:10
235
原创 快速排序
快速排序:一、------------------------------------------------------------快速排序平均时间复杂度为O(N*logN),最差的情况下,整个序列都已经有序且完全倒序 ,为 O( n^2 )空间复杂度为: O(logn) ~ O( n ),占用较多内存,还可以接受,比归并排序好多了。真正消耗空间的就是递归调用,因为每次递归就要...
2019-10-02 23:51:34
128
原创 归并排序
递归的佛系理解:事实上,我们并不是每个函数都需要跟进去看执行结果的,比如我们在自己的函数中调用printf函数时,并没有钻进去看它是怎么打印的,因为我们相信它能完成打印工作。如果你相信你正在写的递归函数是正确的,并调用它,然后在此基础上写完这个递归函数,那么它就会是正确的,从而值得你相信它正确。以上两句话就是要明白一个道理:不要把自己放进递归函数中,放进一些简单的递归如阶乘,可能你还能理...
2019-10-02 23:50:37
262
原创 数据结构之双向链表、二叉树
package exam;/** * 定义双向链表 * 1.头、尾节点、链表长度 * 2.自定义节点Node,属性前指针、后指针、内容(preNode、nextNode、ele) * 3.节点前、节点后添加元素方法; 节点删除方法; 重写输出链表方法toString * */public class MyLinkedList{ private M...
2019-10-02 23:49:00
435
原创 思维案例
public class Demo0520Practice { public static void main(String[] args) throws IOException { //等边三角形 Triangle //正方形 square //空心菱形 diamond *// diamond(); //去...
2019-10-02 23:27:38
185
转载 win10找不到vm8、wm1网卡
转载:https://blog.csdn.net/p942005405/article/details/89914620
2019-09-22 21:34:23
1604
原创 MapReduceII
Mapreduce 程序效率的瓶颈在于:CPU、内存、磁盘、网络MapReduce优化方法主要从六个方面考虑:数据输入、Map阶段、Reduce阶段、IO传输、数据倾斜问题、常用的调优参数。数据输入:合并小文件,采用CombineTextInputFormat来作为输入,解决输入端大量小文件场景Map阶段:减少溢写(spill)次数、减少合并(merge)次数、不影响业务逻辑前提下,进...
2019-09-16 12:56:38
144
原创 HDFS调优
一、hdfs优化:小文件优化 (块处理、150B元数据索引,索引文件过大导致索引速度变慢)1)Hadoop Archive(对外一个文件,对内多个小文件) 是一个高效地将小文件放入HDFS块中的文件存档工具,它能够将多个小文件打包成一个HAR文件,这样就减少了namenode的内存使用。2)Sequence file sequence file由一系列的二进制key/value组成,...
2019-09-16 12:01:06
700
原创 HBASE优化II
hbase调优1、高可用 Hmaster 负责监控 RegionServer 的生命周期,均衡 RegionServer 的负载2、预分区3、rowkey的设计 散列原则、长度原则4、hbase的列族不宜太多,两个就已经很多了(列族多会增加寻址,影响效率;如,region分裂时,是按rowkey来切割,会被分到不同hregionserver上,寻址复杂)5、关闭Hlog(...
2019-09-16 11:06:47
169
原创 HIVE优化II
hive的优化1.环境的优化(内存分配、负载分配等)2.应用配置属性方面的优化3.优化hql语句查看explain执行计划:使用explain关键字加上hql语句生成执行计划一个hql语句将会有一个或者多个stage,每一个stage相当于一个mr的job,stage可以是fetch,map join、limit等操作。每一个stage都会按照依赖关系依次执行,没有依赖关系的可以...
2019-09-16 10:24:15
239
转载 flink学习资料
https://mp.weixin.qq.com/s?__biz=MzU3MzgwNTU2Mg==&mid=2247485843&idx=1&sn=19b2525d8db9e9fdbc0eafbc1c20f5e5&chksm=fd3d4f06ca4ac6108cbde41cb034253c430bca34d5465a56e41f7c1fef5821d8479e336...
2019-08-27 17:46:10
181
原创 spark开发性能调优
调优策略 ---参照老中根据log,yarn UI各stage的运行情况,结合这里的调优策略,多进行实验,实践出真理!没有经过任何调优手段的spark作业,16个小时;三板斧下来,就可以到5个小时;然后非常重要的一个调优,影响特别大,shuffle调优,2~3个小时;应用了10个以上的性能调优的技术点,JVM+广播,30分钟。16小时~30分钟。开发的时候,...
2019-08-26 16:32:51
297
原创 Hive调优
2019-03-139.1 Fetch抓取Fetch抓取是指,Hive中对某些情况的查询可以不必使用MapReduce计算。例如:SELECT * FROM employees;在这种情况下,Hive可以简单地读取employee对应的存储目录下的文件,然后输出查询结果到控制台。在hive-default.xml.template文件中hive.fetch.task.conversio...
2019-08-26 08:54:36
124
原创 DataSet、Structured Streaming的使用
DataSetpackage cn.ibeifeng.sparkimport org.apache.spark.sql.SparkSessionobject StructuredNetworkWordCount { def main(args: Array[String]) { val spark = SparkSession .builder()...
2019-03-07 21:26:49
384
原创 spark电商15个经典代码
1.accumulate累加代码:public class SessionAggrStatAccumulator implements AccumulatorParam<String> { private static final long serialVersionUID = 6311074555136039130L; //zero方法,其实主要...
2019-03-04 21:04:08
480
原创 道路交通实时流量监控预测系统一些学习整理
道路交通实时流量监控预测系统 项目背景: 出行路线规划、交通部门对道路的规划与建设 涉及那些步骤: 并发采集数据(kafka)、实时数据处理(spark)、高效内存存储(redis)、建模实时预测(MLlib)、页面展示 具体的业务需求:代码编程中提取吧(基本就是走一遍全部流程而已,没什么特定的业务需求) ...
2019-02-27 15:50:40
4498
5
原创 大数据APP端思路
如果你是在一个互联网公司,然后你的公司现在也在做移动互联网,做了一个手机app那么你的手机app的用户,每次进行点击,或者是一些搜索操作的时候,都会跟你的远程的后端服务器做一次交互也就是说,你的手机app,首先会往后端服务器发送一个请求,然后你的后端服务器会给你的手机app返回一个响应,响应的内容可能是图片、或者文字、或者json此时,就完成了一次你的移动端app和后端服务器之间的交互过程...
2019-02-26 17:17:21
618
原创 新闻网站关键指标离线统计Spark作业
package com.spark.study.sparksql;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaSparkContext;import org.apache.spark.sql.DataFrame;import org.apache.spark.sql.hive.HiveCo...
2019-02-26 17:16:29
396
原创 spark2.0新增项目模块(用户活跃度分析 DataSet)
package sparkupdatedemo.datasetimport org.apache.spark.sql.SparkSession/** * 用户活跃度分析 * * 1、指定时间段内访问次数最多的10个用户 * 2、指定时间段内购买商品金额最多的10个用户 * 3、最近周期内相对之前一个周期访问次数增长最快的10个用户 * 4、最近周期内相...
2019-02-26 17:10:14
335
原创 SparkSession与SparkContext SparkConf SQLContext HiveContext StreamingContext
SparkSession与SparkContext SparkConf SQLContext HiveContext StreamingContext参考blog:https://blog.csdn.net/dufufd/article/details/790888911.SparkContext:val sparkConf = new SparkConf().setAppName("S...
2019-02-24 13:30:35
5053
转载 学习资源收集
1.一起自学吧:2.潭州课堂:https://jinshuju.net/f/ltNf5dhttps://docs.qq.com/sheet/DRGVsQ1pqT2NmRlFt?tab=BB08J23.基于Spark的机器学习-智能客户系统项目实战链接:https://pan.baidu.com/s/1yZSj1BuyFHHMS-VQM1pUmQ提取码:zkn1...
2019-02-21 15:08:41
5402
原创 SparkStream 性能调优思路以及原理图
一、确保HA高可用性:High Availability如果有些数据丢失,或者节点挂掉;那么不能让你的实时计算程序挂了;必须做一些数据上的冗余副本,保证你的实时计算程序可以7 * 24小时的运转。通过一整套方案(3个步骤),开启和实现实时计算程序的HA高可用性,保证一些关键数据都有其冗余副本,不至于因为节点挂掉或者其他原因导致数据丢失。1、updateStateByKey、win...
2019-01-23 16:26:12
1213
原创 Spark SQL性能调优以及原理图
之前使用在Spark Core中的数据倾斜解决方案,全部都可以直接套用在Spark SQL上:1、聚合源数据2、过滤导致倾斜的key3、提高shuffle并行度:spark.sql.shuffle.partitions4、双重group by5、reduce join转换为map join:spark.sql.autoBroadcastJoinThreshold6、采样倾斜...
2019-01-20 00:02:31
340
原创 大数据职业规划所感所悟
大数据方向的职业发展规划的个人的积累: 逐步提升方向 大数据业务:用户行为、风控、征信。。。等hive + java + 算法 + 业务 +架构(高并发) -------------------------linux运维工程师 转型 大数据运维工程师:精通linux,hadoop、spark、storm、hbase(源码级别)集群的搭建与运维,集群的升级、二次开发...
2019-01-19 23:42:38
3571
1
原创 clouder manager完整搭建cdh集群
搭建cdh全过程1)根据文档 “安装RedHat+Linux+7” 安装好centos7的操作系统 (3台机器,内存9g、3g、3g; 磁盘40g、15g、15g)实际配置多台机器:?1)利用cdh配置大数据集群环境2)制作一个系统(里面已经安装了所需要的软件)3)系统安装,然后主节点肯定从头到尾配置(里面会存在mysql,clouderManager-Server,,,从节点所...
2018-12-31 13:04:34
2979
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅