大数据资料笔记整理
文章平均质量分 91
不急吃口药
这个作者很懒,什么都没留下…
展开
-
大数据公司面试题准备
*100万条数据取topN,手写代码(手写快速排序)*如何一个很大的文件把你的linux磁盘整崩溃了,怎么去查找这个文件?(这里的崩溃是指占用磁盘过多,什么命令找出这个文件;注意面试官提问问题前的提示) df -h 通过文件系统来获取空间大小的信息 du -h 通过搜索文件来计算每个文件的大小然后累加得到的值(能在文件系统里面看到的文件才会被du统计) 思路,先df -h,找...原创 2019-10-30 11:55:56 · 461 阅读 · 0 评论 -
用户画像
一、什么是用户画像用户画像是指根据用户的属性、偏好、生活习惯、行为等信息,抽象出来的标签化用户模型。通俗说就是给用户打标签,而标签是通过对用户信息分析而来的高度精炼的特征标识。通过打标签可以利用一些高度概括、容易理解的特征来描述用户,可以让人更容易理解用户,并且可以方便计算机处理。用户画像是对现实世界中用户的建模,用户画像包含目标,方式,组织,标准,验证这5个方...转载 2019-10-22 19:49:49 · 643 阅读 · 0 评论 -
SparkStream 性能调优思路以及原理图
一、确保HA高可用性:High Availability如果有些数据丢失,或者节点挂掉;那么不能让你的实时计算程序挂了;必须做一些数据上的冗余副本,保证你的实时计算程序可以7 * 24小时的运转。通过一整套方案(3个步骤),开启和实现实时计算程序的HA高可用性,保证一些关键数据都有其冗余副本,不至于因为节点挂掉或者其他原因导致数据丢失。1、updateStateByKey、win...原创 2019-01-23 16:26:12 · 1143 阅读 · 0 评论 -
Spark SQL性能调优以及原理图
之前使用在Spark Core中的数据倾斜解决方案,全部都可以直接套用在Spark SQL上:1、聚合源数据2、过滤导致倾斜的key3、提高shuffle并行度:spark.sql.shuffle.partitions4、双重group by5、reduce join转换为map join:spark.sql.autoBroadcastJoinThreshold6、采样倾斜...原创 2019-01-20 00:02:31 · 246 阅读 · 0 评论 -
时间Time处理总结
一、log时间戳转换成日期格式: 代码的时间戳不需要像hive中的那样切割成秒, // val ct: String = ct_time.substring(0,10)simpledateformat线程不安全,用fastdataformat------------val ct_time: String = firstJson.ge...原创 2019-10-19 00:38:30 · 382 阅读 · 0 评论 -
数据仓库全流程
数仓建设的思路流程:1梳理业务流程2梳理数据流3数据类型、存储介质、样例数据4需求-功能性需求、非功能性需求(性能、时效性)-------------------------------------数据来源rdbmslognginxhttpsthird api mongoDB :第三方数据http请求,访问第三方API, 第三...原创 2019-10-14 21:10:33 · 10290 阅读 · 2 评论 -
spark任务提交流程图
原创 2019-10-12 11:51:05 · 332 阅读 · 0 评论 -
HBASE优化II
hbase调优1、高可用 Hmaster 负责监控 RegionServer 的生命周期,均衡 RegionServer 的负载2、预分区3、rowkey的设计 散列原则、长度原则4、hbase的列族不宜太多,两个就已经很多了(列族多会增加寻址,影响效率;如,region分裂时,是按rowkey来切割,会被分到不同hregionserver上,寻址复杂)5、关闭Hlog(...原创 2019-09-16 11:06:47 · 122 阅读 · 0 评论 -
HIVE优化II
hive的优化1.环境的优化(内存分配、负载分配等)2.应用配置属性方面的优化3.优化hql语句查看explain执行计划:使用explain关键字加上hql语句生成执行计划一个hql语句将会有一个或者多个stage,每一个stage相当于一个mr的job,stage可以是fetch,map join、limit等操作。每一个stage都会按照依赖关系依次执行,没有依赖关系的可以...原创 2019-09-16 10:24:15 · 195 阅读 · 0 评论 -
mapreduce操作经验
MR的本地运行 将本地hadoop环境安装,将hadoop.dll文件及winutils.exe放入hadoop的bin目录下,并配置环境变量; ---- (本地运行MR程序必须安装hadoop) System.setProperty("HADOOP_HOME_USER","root");System.setProperty("hadoop.home.dir","D:\\hadoop...原创 2019-10-04 20:37:09 · 288 阅读 · 0 评论 -
hive经典案例需求
=============hql补强点!练习题===============================01,01,8001,02,9001,03,9902,01,7002,03,8003,03,8004,01,5004,02,30create table test1(name int,course int,score int)row format del...原创 2019-10-05 00:44:47 · 654 阅读 · 0 评论 -
MapReduceII
Mapreduce 程序效率的瓶颈在于:CPU、内存、磁盘、网络MapReduce优化方法主要从六个方面考虑:数据输入、Map阶段、Reduce阶段、IO传输、数据倾斜问题、常用的调优参数。数据输入:合并小文件,采用CombineTextInputFormat来作为输入,解决输入端大量小文件场景Map阶段:减少溢写(spill)次数、减少合并(merge)次数、不影响业务逻辑前提下,进...原创 2019-09-16 12:56:38 · 106 阅读 · 0 评论 -
HDFS调优
一、hdfs优化:小文件优化 (块处理、150B元数据索引,索引文件过大导致索引速度变慢)1)Hadoop Archive(对外一个文件,对内多个小文件) 是一个高效地将小文件放入HDFS块中的文件存档工具,它能够将多个小文件打包成一个HAR文件,这样就减少了namenode的内存使用。2)Sequence file sequence file由一系列的二进制key/value组成,...原创 2019-09-16 12:01:06 · 608 阅读 · 0 评论 -
job提交流程图
原创 2019-10-04 17:17:10 · 328 阅读 · 0 评论 -
mr全流程图
原创 2019-10-04 17:16:26 · 816 阅读 · 0 评论 -
zookeeper图
zk选举:应用场景:原创 2019-10-04 17:15:42 · 251 阅读 · 0 评论 -
hadoop的HA图
原创 2019-10-04 17:13:45 · 100 阅读 · 0 评论 -
yarn参数配置
原创 2019-10-04 20:41:44 · 148 阅读 · 0 评论 -
Hive体系图
hive_metastore: 安装hive(配置远程的元数据管理) ----> https://docs.hortonworks.com/HDPDocuments/HDP2/HDP-2.3.0/bk_hadoop-ha/content/ch_HA-Hive.html远程模式中,选取某一台安装有hive的节点,配置metastore,启动metastore...原创 2019-10-04 20:53:22 · 186 阅读 · 0 评论 -
spark开发性能调优
调优策略 ---参照老中根据log,yarn UI各stage的运行情况,结合这里的调优策略,多进行实验,实践出真理!没有经过任何调优手段的spark作业,16个小时;三板斧下来,就可以到5个小时;然后非常重要的一个调优,影响特别大,shuffle调优,2~3个小时;应用了10个以上的性能调优的技术点,JVM+广播,30分钟。16小时~30分钟。开发的时候,...原创 2019-08-26 16:32:51 · 263 阅读 · 0 评论 -
SparkSql之UDF、UDAF、UDTF
UDF----------------------------------------完整的示例:object SparkSQL { def main(args:Array[String]):Unit = { //创建SparkConf()并设置App名称 val conf = new SparkConf().setAppName("SparkSQLDemo").setMa...原创 2019-10-11 00:35:41 · 642 阅读 · 0 评论 -
kafka动态扩容
kafka动态扩容 --- https://www.orchome.com/36 KafkaManager更直观了解kafka将服务器添加到Kafka集群非常简单,只需为其分配唯一的 broker ID并在您的新服务器上启动Kafka即可。但是,这些新的服务器不会自动分配到任何数据分区,除非将分区移动到这些分区,否则直到创建新 topic ...转载 2019-10-10 19:58:05 · 1982 阅读 · 0 评论 -
Kafka的体系结构
/*** 生产者 */ public class TestProducer { public static void main(String[] args) throws Exception { Properties props = new Properties(); props.put("bootstrap.servers", "node4:9092,node2...原创 2019-10-09 14:53:04 · 280 阅读 · 0 评论 -
集群中增加snappy压缩库
查看hadoop集群是否支持snappy库(可以看到snappy是没有安装的):$ hadoop checknative16/12/06 15:08:39 WARN bzip2.Bzip2Factory: Failed to load/initialize native-bzip2 library system-native, will use pure-Java version16...原创 2019-10-08 17:34:02 · 242 阅读 · 0 评论 -
flume架构图以及模板
模板:================主要方式===================a1.sources = r1 a1.channels = c1 c2a1.sinks = s1 s2a1.sources.r1.type=spooldira1.sources.r1.spoolDir =/root/mya1.sources.r1.selector.type=multipl...原创 2019-10-06 11:59:56 · 324 阅读 · 0 评论 -
Hbase图
原创 2019-10-05 20:07:09 · 98 阅读 · 0 评论 -
Hbase API
scala版见url : https://blog.csdn.net/xiushuiguande/article/details/79766469------------------------------------------Admin(操作namespace、table、column)列出所有的名称空间NamespaceDescriptor[]nsds = admin.list...原创 2019-10-05 19:59:19 · 151 阅读 · 0 评论 -
UDF、UDAF、UDTF
UDF:第一个udf ---- 去除引号add jar /opt/datas/hiveudf2.jar ;create temporary function my_removequotes as "com.beifeng.senior.hive.udf.RemoveQuotesUDF" ;insert overwrite table default.bf_log_comm s...原创 2019-10-04 23:02:44 · 530 阅读 · 0 评论 -
clouder manager完整搭建cdh集群
搭建cdh全过程1)根据文档 “安装RedHat+Linux+7” 安装好centos7的操作系统 (3台机器,内存9g、3g、3g; 磁盘40g、15g、15g)实际配置多台机器:?1)利用cdh配置大数据集群环境2)制作一个系统(里面已经安装了所需要的软件)3)系统安装,然后主节点肯定从头到尾配置(里面会存在mysql,clouderManager-Server,,,从节点所...原创 2018-12-31 13:04:34 · 2843 阅读 · 0 评论 -
hdfs写数据流程
写:原创 2019-10-04 17:12:56 · 85 阅读 · 0 评论 -
压缩格式
原创 2019-10-04 17:07:45 · 102 阅读 · 0 评论 -
银行取款案例(线程安全)
同步块:public class AccountBlock { private int cash; public AccountBlock(int cash) { this.cash = cash; } public int getCash() { return cash; } public void set...原创 2019-10-03 21:38:59 · 304 阅读 · 0 评论 -
IO架构体系
原创 2019-10-03 20:56:59 · 203 阅读 · 0 评论 -
多线程图
原创 2019-10-03 20:55:55 · 138 阅读 · 0 评论 -
JAVA集合图
原创 2019-10-03 16:21:58 · 126 阅读 · 0 评论 -
正则表达式图
原创 2019-10-03 16:20:41 · 548 阅读 · 0 评论 -
JAVA异常继承图
原创 2019-10-03 16:18:06 · 204 阅读 · 0 评论 -
JUnit
import static org.junit.Assert.*;import org.junit.Before;import org.junit.BeforeClass;import org.junit.Test;import junit.framework.Assert;/*** 演示了一个简单的JUnit4的方法* 1.首先要把JUnit4的jar加入到build ...原创 2019-10-03 16:14:35 · 193 阅读 · 0 评论 -
策略模式
策略模式(Strategy Pattern): 接口,只有一个方法,子类实现 ----> https://www.jianshu.com/p/7b7de81cdfbe 策略模式简记:一个策略接口,若干具体的策略实现类,封装一个用于更新和执行策略的上下文Context,其构造函数和设置策略函数功能是一致的。策略模式概要策略模式是对算法的包装,是把使...原创 2019-10-03 15:59:27 · 122 阅读 · 0 评论 -
设计模式
单例模式:懒汉式:单例还是静态内部类式最优:优点:利用了classloader机制来保证初始化instance时只有一个线程,线程安全且没有性能损耗 主类实例化之后,内部类才能开始实例化,所以调用的时候才会去创建对象;因为是static final和直接new的,所以不用考虑多线程的问题!public class Singleton { private Singl...原创 2019-10-03 15:28:10 · 76 阅读 · 0 评论