自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

莫慌 吃口药

固步自封,必将自取灭亡!

  • 博客(73)
  • 收藏
  • 关注

原创 《大数据之路:阿里巴巴大数据实践》

《大数据之路:阿里巴巴大数据实践》语录目录一、数据采集 1◆日志采集 1▼浏览器的页面日志采集 1▼无线客户端的日志采集 2(1) 页面事件 3(2) 控件点击事件 3(3) 其它事件 3(4) 特殊场景 3(5)H5 & Native 日志统一 4(6)设备标识 4(7) 日志传输 5▼日志采集挑战 5(1) 日志分流与定制处理 5...

2019-11-22 15:49:28 676 1

原创 大数据公司面试题准备

*100万条数据取topN,手写代码(手写快速排序)*如何一个很大的文件把你的linux磁盘整崩溃了,怎么去查找这个文件?(这里的崩溃是指占用磁盘过多,什么命令找出这个文件;注意面试官提问问题前的提示) df -h 通过文件系统来获取空间大小的信息 du -h 通过搜索文件来计算每个文件的大小然后累加得到的值(能在文件系统里面看到的文件才会被du统计) 思路,先df -h,找...

2019-10-30 11:55:56 447

转载 用户画像

一、什么是用户画像用户画像是指根据用户的属性、偏好、生活习惯、行为等信息,抽象出来的标签化用户模型。通俗说就是给用户打标签,而标签是通过对用户信息分析而来的高度精炼的特征标识。通过打标签可以利用一些高度概括、容易理解的特征来描述用户,可以让人更容易理解用户,并且可以方便计算机处理。用户画像是对现实世界中用户的建模,用户画像包含目标,方式,组织,标准,验证这5个方...

2019-10-22 19:49:49 597

原创 时间Time处理总结

一、log时间戳转换成日期格式: 代码的时间戳不需要像hive中的那样切割成秒, // val ct: String = ct_time.substring(0,10)simpledateformat线程不安全,用fastdataformat------------val ct_time: String = firstJson.ge...

2019-10-19 00:38:30 365

原创 数据仓库全流程

数仓建设的思路流程:1梳理业务流程2梳理数据流3数据类型、存储介质、样例数据4需求-功能性需求、非功能性需求(性能、时效性)-------------------------------------数据来源rdbmslognginxhttpsthird api mongoDB :第三方数据http请求,访问第三方API, 第三...

2019-10-14 21:10:33 10149 2

原创 spark任务提交流程图

2019-10-12 11:51:05 319

原创 SparkSql之UDF、UDAF、UDTF

UDF----------------------------------------完整的示例:object SparkSQL { def main(args:Array[String]):Unit = { //创建SparkConf()并设置App名称 val conf = new SparkConf().setAppName("SparkSQLDemo").setMa...

2019-10-11 00:35:41 594

转载 kafka动态扩容

kafka动态扩容 --- https://www.orchome.com/36 KafkaManager更直观了解kafka将服务器添加到Kafka集群非常简单,只需为其分配唯一的 broker ID并在您的新服务器上启动Kafka即可。但是,这些新的服务器不会自动分配到任何数据分区,除非将分区移动到这些分区,否则直到创建新 topic ...

2019-10-10 19:58:05 1961

原创 Kafka的体系结构

/*** 生产者 */ public class TestProducer { public static void main(String[] args) throws Exception { Properties props = new Properties(); props.put("bootstrap.servers", "node4:9092,node2...

2019-10-09 14:53:04 274

原创 集群中增加snappy压缩库

查看hadoop集群是否支持snappy库(可以看到snappy是没有安装的):$ hadoop checknative16/12/06 15:08:39 WARN bzip2.Bzip2Factory: Failed to load/initialize native-bzip2 library system-native, will use pure-Java version16...

2019-10-08 17:34:02 230

原创 flume架构图以及模板

模板:================主要方式===================a1.sources = r1 a1.channels = c1 c2a1.sinks = s1 s2a1.sources.r1.type=spooldira1.sources.r1.spoolDir =/root/mya1.sources.r1.selector.type=multipl...

2019-10-06 11:59:56 311

原创 Hbase图

2019-10-05 20:07:09 86

原创 Hbase API

scala版见url : https://blog.csdn.net/xiushuiguande/article/details/79766469------------------------------------------Admin(操作namespace、table、column)列出所有的名称空间NamespaceDescriptor[]nsds = admin.list...

2019-10-05 19:59:19 138

原创 hive经典案例需求

=============hql补强点!练习题===============================01,01,8001,02,9001,03,9902,01,7002,03,8003,03,8004,01,5004,02,30create table test1(name int,course int,score int)row format del...

2019-10-05 00:44:47 634

原创 UDF、UDAF、UDTF

UDF:第一个udf ---- 去除引号add jar /opt/datas/hiveudf2.jar ;create temporary function my_removequotes as "com.beifeng.senior.hive.udf.RemoveQuotesUDF" ;insert overwrite table default.bf_log_comm s...

2019-10-04 23:02:44 516

原创 Hive体系图

hive_metastore: 安装hive(配置远程的元数据管理) ----> https://docs.hortonworks.com/HDPDocuments/HDP2/HDP-2.3.0/bk_hadoop-ha/content/ch_HA-Hive.html远程模式中,选取某一台安装有hive的节点,配置metastore,启动metastore...

2019-10-04 20:53:22 173

原创 yarn参数配置

2019-10-04 20:41:44 139

原创 mapreduce操作经验

MR的本地运行 将本地hadoop环境安装,将hadoop.dll文件及winutils.exe放入hadoop的bin目录下,并配置环境变量; ---- (本地运行MR程序必须安装hadoop) System.setProperty("HADOOP_HOME_USER","root");System.setProperty("hadoop.home.dir","D:\\hadoop...

2019-10-04 20:37:09 274

原创 job提交流程图

2019-10-04 17:17:10 319

原创 mr全流程图

2019-10-04 17:16:26 799

原创 zookeeper图

zk选举:应用场景:

2019-10-04 17:15:42 237

原创 hadoop的HA图

2019-10-04 17:13:45 89

原创 hdfs写数据流程

写:

2019-10-04 17:12:56 71

原创 压缩格式

2019-10-04 17:07:45 91

原创 XML

W3C 指万维网联盟, W3C 最重要的工作是发展 web 规范,也就是描述 web 通信协议(比如 HTML 和 XML)和其他构建模块的“推荐标准”XML:eXtensible Markup Language 可扩展标记语言 可扩展:所有的标签都是自定义的 功能:数据存储 html与xml区别: html语法松散,xml语法严格 html...

2019-10-04 16:26:00 105

原创 dbutil

dbutil: DBUtils是java编程中的数据库操作实用工具,小巧简单实用。 DBUtils封装了对JDBC的操作,简化了JDBC操作。可以少写代码。 1.对于数据表的**读操作**,他可以把结果转换成List,Array,Set等java集合,便于程序员操作;2.对于数据表的**写操作**,也变得很简单(只需写sql语句)3.可以使用数据源,使用JNDI,数据...

2019-10-04 16:24:32 886

原创 Git

版本管理工具git : 支持在没有网络的前提下,对资源进行版本管理 commit到本地仓库 push将本地仓库中的资源推送到远程仓库中 gitblit(局域网搭建,公司常用) tortoise Git :命令行操作早上上班,先pull拉取同步; 编码中每完成一小部,先push再往下走-------------Git--...

2019-10-04 16:11:28 100

原创 JDBC

JDBCjdbc: java连接数据库的一套规范 各个数据库实现这一套规范,就是该数据库的驱动jar包(驱动jar包的版本号与数据库的版本号不是一一对应,可以互相兼容的) jdbc与数据库驱动的关系就是接口与实现的关系 类加载器加载类里面的文件? inputStream = MyConnection.class.getClassLoader().ge...

2019-10-04 16:03:50 222

原创 oracle性能优化

� 第1周 性能优化综述� 第2周 锁� 第3周 Latch� 第4周 优化器和执行计划� 第5周 Hints� 第6周 等待事件� 地7周 索引和分区(包括11g下新的组合分区)� 地8周 分析及动态采样(包括11g下的extended statistics技术)� 第9周 并行执行� 第10周 变量邦定(包括11g下Adaptive cursor sharing技术)� 第...

2019-10-04 15:21:06 1611

原创 MySQL

2019-10-04 15:15:01 83

原创 lombok图

lombok的使用,避免javabean中添加修改字段带来的麻烦,简化了代码和低耦合性! ---- get、set可以的话,如果调用toString等方法无效,可以compiler -》 勾选annotation processors@Data : 只会生成其它方法,,,不会生成构造器, ----》 集合了@ToStri...

2019-10-04 15:13:15 108

原创 json解析

JSON(JavaScript Object Notation, JS 对象简谱) 是一种轻量级的数据交换格式,json比xml更小、更快、更易解析eval()用于将JSON文本转换为JS对象FastJson,一个json工具包: 序列化,把java对象转换为json, String text = JSON.toJSONString(user); 反序列化,把json...

2019-10-04 12:27:07 186

原创 连接mysql的选择

思路:导包(connction/...)、连接池、增删改查方法(批量)、javabean11、优先使用封装的工具类一、sparksql.write//读取mysql的表数据到idea中 val rdbms = spark.read.format("jdbc").options(Map( ("driver", "com.mysql.jdbc.Driver"...

2019-10-04 12:25:29 151

转载 JVM原理与垃圾回收算法

GC垃圾回收机制原理JVM堆内存中分为年轻代、年老代,把年轻代分为了三部分:1个Eden(幼年)区和 2个Survivor(幸存)区(分别叫from和to,to为空)。默认比例为8:1:1, 一般情况下,新创建的对象都会被分配到Eden区(一些大对象特殊处理:还有一种特殊情况也会被存放到老年代,就是创建大对象时,比如数据这种需要申请连续空间的,如果空间比较大的,则会直接进入年老代)...

2019-10-04 11:46:36 177

原创 代理模式

代理静态代理模式(只是一种理论指导,没有实际技术,技术看动态代理,使用了反射) ----为其它对象提供一个代理,以控制对当前对象的访问核心思想:代理对象和被代理都实现同一个接口 用户访问的时候先访问代理对象,然后让代理对象去访问被代理对象项目中用法:懒加载(没到达一定程度,不允许访问),大对象(如果没有访问对象的属性,就给个假对象),权限(,,,)java.la...

2019-10-03 23:30:01 72

原创 Lambda表达式

Lambda表达式 也称闭包,或者函数式编程(简化匿名类的一种写法) Lambda允许把代码写成一个方法的参数!(参数)->{表达式} : 简化代码,但是可读性不好,看情况用吧! //lambda表达式// new Runnable() {// @Override// publi...

2019-10-03 23:26:31 85

原创 适配器设计模式

适配器设计模式: IO的转换流就使用了它(转换流也可以说使用了装饰器吧)把原来不兼容的两个类通过适配器使之兼容,分为类适配器和对象适配器 定义一个中国的适配器,用的是中国的标准,是美国的功能* 怎么样用到美国的功能,* 可以在当前适配器里定义一个美国水龙头---> 对象适配器模式* 可以让当前适配器继承于美国水龙头,直接可以调用里面的方法--...

2019-10-03 23:23:49 66

原创 装饰设计模式

装饰设计模式: IO的处理流就使用了它在不改变原来对象的情况下,动态的给类添加功能 (不需要该功能就把新增的类那行代码删除掉就可以的)步骤:1.定义一个顶级接口, 所有新增的功能都通过这个接口里面的方法来添加 public interface Plugin{ void add(); }2.定义一个装饰器抽象类,实现这个接口,...

2019-10-03 22:58:31 59

原创 生产者消费者案例(线程通信)

package fourthweek.demon0605;import java.util.Objects;/*** @author Tiffany_xin* @time 2019/6/5 21:50*/public class Pie { private int count; public Pie(int count) { this.co...

2019-10-03 21:40:16 182

原创 银行取款案例(线程安全)

同步块:public class AccountBlock { private int cash; public AccountBlock(int cash) { this.cash = cash; } public int getCash() { return cash; } public void set...

2019-10-03 21:38:59 287

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除