- 博客(73)
- 收藏
- 关注
原创 《大数据之路:阿里巴巴大数据实践》
《大数据之路:阿里巴巴大数据实践》语录目录一、数据采集 1◆日志采集 1▼浏览器的页面日志采集 1▼无线客户端的日志采集 2(1) 页面事件 3(2) 控件点击事件 3(3) 其它事件 3(4) 特殊场景 3(5)H5 & Native 日志统一 4(6)设备标识 4(7) 日志传输 5▼日志采集挑战 5(1) 日志分流与定制处理 5...
2019-11-22 15:49:28 711 1
原创 大数据公司面试题准备
*100万条数据取topN,手写代码(手写快速排序)*如何一个很大的文件把你的linux磁盘整崩溃了,怎么去查找这个文件?(这里的崩溃是指占用磁盘过多,什么命令找出这个文件;注意面试官提问问题前的提示) df -h 通过文件系统来获取空间大小的信息 du -h 通过搜索文件来计算每个文件的大小然后累加得到的值(能在文件系统里面看到的文件才会被du统计) 思路,先df -h,找...
2019-10-30 11:55:56 457
转载 用户画像
一、什么是用户画像用户画像是指根据用户的属性、偏好、生活习惯、行为等信息,抽象出来的标签化用户模型。通俗说就是给用户打标签,而标签是通过对用户信息分析而来的高度精炼的特征标识。通过打标签可以利用一些高度概括、容易理解的特征来描述用户,可以让人更容易理解用户,并且可以方便计算机处理。用户画像是对现实世界中用户的建模,用户画像包含目标,方式,组织,标准,验证这5个方...
2019-10-22 19:49:49 635
原创 时间Time处理总结
一、log时间戳转换成日期格式: 代码的时间戳不需要像hive中的那样切割成秒, // val ct: String = ct_time.substring(0,10)simpledateformat线程不安全,用fastdataformat------------val ct_time: String = firstJson.ge...
2019-10-19 00:38:30 378
原创 数据仓库全流程
数仓建设的思路流程:1梳理业务流程2梳理数据流3数据类型、存储介质、样例数据4需求-功能性需求、非功能性需求(性能、时效性)-------------------------------------数据来源rdbmslognginxhttpsthird api mongoDB :第三方数据http请求,访问第三方API, 第三...
2019-10-14 21:10:33 10273 2
原创 SparkSql之UDF、UDAF、UDTF
UDF----------------------------------------完整的示例:object SparkSQL { def main(args:Array[String]):Unit = { //创建SparkConf()并设置App名称 val conf = new SparkConf().setAppName("SparkSQLDemo").setMa...
2019-10-11 00:35:41 640
转载 kafka动态扩容
kafka动态扩容 --- https://www.orchome.com/36 KafkaManager更直观了解kafka将服务器添加到Kafka集群非常简单,只需为其分配唯一的 broker ID并在您的新服务器上启动Kafka即可。但是,这些新的服务器不会自动分配到任何数据分区,除非将分区移动到这些分区,否则直到创建新 topic ...
2019-10-10 19:58:05 1980
原创 Kafka的体系结构
/*** 生产者 */ public class TestProducer { public static void main(String[] args) throws Exception { Properties props = new Properties(); props.put("bootstrap.servers", "node4:9092,node2...
2019-10-09 14:53:04 278
原创 集群中增加snappy压缩库
查看hadoop集群是否支持snappy库(可以看到snappy是没有安装的):$ hadoop checknative16/12/06 15:08:39 WARN bzip2.Bzip2Factory: Failed to load/initialize native-bzip2 library system-native, will use pure-Java version16...
2019-10-08 17:34:02 239
原创 flume架构图以及模板
模板:================主要方式===================a1.sources = r1 a1.channels = c1 c2a1.sinks = s1 s2a1.sources.r1.type=spooldira1.sources.r1.spoolDir =/root/mya1.sources.r1.selector.type=multipl...
2019-10-06 11:59:56 320
原创 Hbase API
scala版见url : https://blog.csdn.net/xiushuiguande/article/details/79766469------------------------------------------Admin(操作namespace、table、column)列出所有的名称空间NamespaceDescriptor[]nsds = admin.list...
2019-10-05 19:59:19 149
原创 hive经典案例需求
=============hql补强点!练习题===============================01,01,8001,02,9001,03,9902,01,7002,03,8003,03,8004,01,5004,02,30create table test1(name int,course int,score int)row format del...
2019-10-05 00:44:47 649
原创 UDF、UDAF、UDTF
UDF:第一个udf ---- 去除引号add jar /opt/datas/hiveudf2.jar ;create temporary function my_removequotes as "com.beifeng.senior.hive.udf.RemoveQuotesUDF" ;insert overwrite table default.bf_log_comm s...
2019-10-04 23:02:44 529
原创 Hive体系图
hive_metastore: 安装hive(配置远程的元数据管理) ----> https://docs.hortonworks.com/HDPDocuments/HDP2/HDP-2.3.0/bk_hadoop-ha/content/ch_HA-Hive.html远程模式中,选取某一台安装有hive的节点,配置metastore,启动metastore...
2019-10-04 20:53:22 185
原创 mapreduce操作经验
MR的本地运行 将本地hadoop环境安装,将hadoop.dll文件及winutils.exe放入hadoop的bin目录下,并配置环境变量; ---- (本地运行MR程序必须安装hadoop) System.setProperty("HADOOP_HOME_USER","root");System.setProperty("hadoop.home.dir","D:\\hadoop...
2019-10-04 20:37:09 286
原创 XML
W3C 指万维网联盟, W3C 最重要的工作是发展 web 规范,也就是描述 web 通信协议(比如 HTML 和 XML)和其他构建模块的“推荐标准”XML:eXtensible Markup Language 可扩展标记语言 可扩展:所有的标签都是自定义的 功能:数据存储 html与xml区别: html语法松散,xml语法严格 html...
2019-10-04 16:26:00 113
原创 dbutil
dbutil: DBUtils是java编程中的数据库操作实用工具,小巧简单实用。 DBUtils封装了对JDBC的操作,简化了JDBC操作。可以少写代码。 1.对于数据表的**读操作**,他可以把结果转换成List,Array,Set等java集合,便于程序员操作;2.对于数据表的**写操作**,也变得很简单(只需写sql语句)3.可以使用数据源,使用JNDI,数据...
2019-10-04 16:24:32 898
原创 Git
版本管理工具git : 支持在没有网络的前提下,对资源进行版本管理 commit到本地仓库 push将本地仓库中的资源推送到远程仓库中 gitblit(局域网搭建,公司常用) tortoise Git :命令行操作早上上班,先pull拉取同步; 编码中每完成一小部,先push再往下走-------------Git--...
2019-10-04 16:11:28 107
原创 JDBC
JDBCjdbc: java连接数据库的一套规范 各个数据库实现这一套规范,就是该数据库的驱动jar包(驱动jar包的版本号与数据库的版本号不是一一对应,可以互相兼容的) jdbc与数据库驱动的关系就是接口与实现的关系 类加载器加载类里面的文件? inputStream = MyConnection.class.getClassLoader().ge...
2019-10-04 16:03:50 230
原创 oracle性能优化
� 第1周 性能优化综述� 第2周 锁� 第3周 Latch� 第4周 优化器和执行计划� 第5周 Hints� 第6周 等待事件� 地7周 索引和分区(包括11g下新的组合分区)� 地8周 分析及动态采样(包括11g下的extended statistics技术)� 第9周 并行执行� 第10周 变量邦定(包括11g下Adaptive cursor sharing技术)� 第...
2019-10-04 15:21:06 1643
原创 lombok图
lombok的使用,避免javabean中添加修改字段带来的麻烦,简化了代码和低耦合性! ---- get、set可以的话,如果调用toString等方法无效,可以compiler -》 勾选annotation processors@Data : 只会生成其它方法,,,不会生成构造器, ----》 集合了@ToStri...
2019-10-04 15:13:15 111
原创 json解析
JSON(JavaScript Object Notation, JS 对象简谱) 是一种轻量级的数据交换格式,json比xml更小、更快、更易解析eval()用于将JSON文本转换为JS对象FastJson,一个json工具包: 序列化,把java对象转换为json, String text = JSON.toJSONString(user); 反序列化,把json...
2019-10-04 12:27:07 198
原创 连接mysql的选择
思路:导包(connction/...)、连接池、增删改查方法(批量)、javabean11、优先使用封装的工具类一、sparksql.write//读取mysql的表数据到idea中 val rdbms = spark.read.format("jdbc").options(Map( ("driver", "com.mysql.jdbc.Driver"...
2019-10-04 12:25:29 156
转载 JVM原理与垃圾回收算法
GC垃圾回收机制原理JVM堆内存中分为年轻代、年老代,把年轻代分为了三部分:1个Eden(幼年)区和 2个Survivor(幸存)区(分别叫from和to,to为空)。默认比例为8:1:1, 一般情况下,新创建的对象都会被分配到Eden区(一些大对象特殊处理:还有一种特殊情况也会被存放到老年代,就是创建大对象时,比如数据这种需要申请连续空间的,如果空间比较大的,则会直接进入年老代)...
2019-10-04 11:46:36 189
原创 代理模式
代理静态代理模式(只是一种理论指导,没有实际技术,技术看动态代理,使用了反射) ----为其它对象提供一个代理,以控制对当前对象的访问核心思想:代理对象和被代理都实现同一个接口 用户访问的时候先访问代理对象,然后让代理对象去访问被代理对象项目中用法:懒加载(没到达一定程度,不允许访问),大对象(如果没有访问对象的属性,就给个假对象),权限(,,,)java.la...
2019-10-03 23:30:01 75
原创 Lambda表达式
Lambda表达式 也称闭包,或者函数式编程(简化匿名类的一种写法) Lambda允许把代码写成一个方法的参数!(参数)->{表达式} : 简化代码,但是可读性不好,看情况用吧! //lambda表达式// new Runnable() {// @Override// publi...
2019-10-03 23:26:31 91
原创 适配器设计模式
适配器设计模式: IO的转换流就使用了它(转换流也可以说使用了装饰器吧)把原来不兼容的两个类通过适配器使之兼容,分为类适配器和对象适配器 定义一个中国的适配器,用的是中国的标准,是美国的功能* 怎么样用到美国的功能,* 可以在当前适配器里定义一个美国水龙头---> 对象适配器模式* 可以让当前适配器继承于美国水龙头,直接可以调用里面的方法--...
2019-10-03 23:23:49 73
原创 装饰设计模式
装饰设计模式: IO的处理流就使用了它在不改变原来对象的情况下,动态的给类添加功能 (不需要该功能就把新增的类那行代码删除掉就可以的)步骤:1.定义一个顶级接口, 所有新增的功能都通过这个接口里面的方法来添加 public interface Plugin{ void add(); }2.定义一个装饰器抽象类,实现这个接口,...
2019-10-03 22:58:31 62
原创 生产者消费者案例(线程通信)
package fourthweek.demon0605;import java.util.Objects;/*** @author Tiffany_xin* @time 2019/6/5 21:50*/public class Pie { private int count; public Pie(int count) { this.co...
2019-10-03 21:40:16 189
原创 银行取款案例(线程安全)
同步块:public class AccountBlock { private int cash; public AccountBlock(int cash) { this.cash = cash; } public int getCash() { return cash; } public void set...
2019-10-03 21:38:59 303
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人