新增知识
struggle@徐磊
知识重要,态度更重要!
展开
-
套裝二《知識點匯總》
一、flume中的事务ISR副本同步机制(副本同步队列)原创 2020-04-13 21:19:31 · 331 阅读 · 0 评论 -
VM虚拟机扩容
文章目录一、配置二、原因三、开始扩容3.1、扩充虚拟机硬盘大小3.2、扩充虚拟机的分区3.3、真正分配资源3.4、查看结果看是否扩充成功(之前是98%现在是62%)一、配置CentOs-7vm15二、原因df -hl查看虚拟机内存的时候,空间不足,导致好多操作不行Linux查看文件大小的简单指令三、开始扩容3.1、扩充虚拟机硬盘大小3.2、扩充虚拟机的分区# 1、查看当...原创 2020-04-10 20:40:01 · 535 阅读 · 3 评论 -
JAVA-多线程线程池 简单介绍
一、为什么要用线程池1、通过复用线程池中的线程,来减少线程创建和销毁的性能开销2、对线程进行一些维护和管理,比如定时开始,周期执行,开发数控制等等二、线程参数意义当任务数 超过 核心线程数时,会将超过的任务放到队列中,只会创建三个线程重复使用corePoolSize 表示核心线程数三、线程中的方法join方法加入join() 方法之后,主线程启动子线程之后,会等待子线程执行完毕...原创 2020-04-10 16:26:21 · 205 阅读 · 0 评论 -
套裝一《知識點匯總》
一、为什么不用hadoop,要用Maxcompute?简单介绍二、zookeeper中znod的类型2.1、类型临时节点(EPHEMERAL):临时创建的,会话结束节点自动被删除,也可以手动删除,临时节点不能拥有子节点临时顺序节点(EPHEMERAL_SEQUENTIAL):具有临时节点特征,但是它会有序列号,分布式锁中会用到该类型节点持久节点(PERSISTENT):创建后永久...原创 2020-04-07 23:11:26 · 273 阅读 · 1 评论 -
byte数组转换成String
byte[] body = event.getBody(); String s = new String(body, Charset.forName("UTF-8"));原创 2020-03-30 15:26:13 · 12217 阅读 · 0 评论 -
編譯源代碼生成zip壓縮包
今天從GitHub上下載了kafkaManager的源代碼,進行編譯并且成功了,不過這是我第一次試,如果下次用今天的方法還編譯成功的話,我會把開頭這幾句話刪掉!!步驟1、從GitHub上下載了源代碼2、用sbt编译2.1、用yum先把sbt安装上curl https://bintray.com/sbt/rpm/rpm > bintray-sbt-rpm.repomv bint...原创 2020-03-29 22:11:24 · 500 阅读 · 0 评论 -
大数据的数据仓库是用来当停车位当嘛?
文章目录一、数据仓库 简介1.1、用途1.2、数据仓库跟mysql和hive的區別1.2.1、相同点:1.2.2、不同点:1.2.3、实际区别(是OLTP(联机事务)与OLAP(联机分析处理)的区别。)1.3、四大特點1.3.1、数据仓库的数据是面向主题的1.3.2、数据仓库的数据是集成的1.3.3、数据仓库的数据是不可更新的1.3.4、数据仓库的数据是随时间不断变化的1.4、数据仓库的表结构的设...原创 2020-03-23 16:47:33 · 517 阅读 · 0 评论 -
简单解析json
# json{"id":1,"age":18}# hive建表语句create table json(name string);# 加载数据进 json 表load data local inpath "/root/data/hive/a.txt" into table json;# 数据展示+--------------------+| json.name |...原创 2020-03-20 14:56:17 · 120 阅读 · 0 评论 -
虚拟机磁盘空间不足的话,通过查看Liunx磁盘大小,然后删除不必要的信息释放空间
进入指定目录,然后执行这个 指令 du -h -x --max-depth=1如上图,我先进入 /root 目录,运行完指令之后发现 /data 目录占用磁盘空间大,所以我又进入 /data 目录,这样一级一级查找下去,然后删除无用信息。...原创 2020-03-02 18:44:20 · 516 阅读 · 0 评论 -
Hive优化(提高hive运行速度)
一、Hive使用本地模式执行操作(Hive使用资源大于20M的时候还是会采用集群yarn的方式运行)将hive的job交给yarn执行太慢,hive支持本地模式設置本地模式之前的,耗時 9.068設置本地模式之后的,耗時 0.29设置hive基于本地模式的方法1、设置临时的在每次执行hql语句之前 都要先执行下面这句话 set hive.exec.mode.local.auto...原创 2020-02-18 19:08:36 · 9981 阅读 · 0 评论 -
String转换成Long(报错:java.lang.String cannot be cast to java.lang.Long )
报错原因:String不能转换成long类型解决方法:Long.ValueOf(“String”)返回Long包装类型Long.parseLong(“String”)返回long基本数据类型实例 : redis1.setValue(Long.parseLong(entry.getValue().toString()));...原创 2020-03-10 21:14:54 · 20250 阅读 · 1 评论 -
随机数生成
例子1、1.要求在10到300中产生随机数[10,300]包含10和300.int randNum = rand.nextInt(300-10+1) + 10;rand.nextInt(300-10+1)=rand.nextInt(291)意思是产生[0,291)不包括291再加10就是[10,301)不包括301,如果要包括300所以要 rand.nextInt(300-10+1...原创 2020-01-10 11:56:26 · 162 阅读 · 0 评论 -
Hdfs小文件处理方法
一、flume收集完数据之后往hdfs上传输,设置好参数a1.sinks.s1.type=hdfsa1.sinks.s1.hdfs.path=hdfs://node132:9000/flume#多久生成一个新的文件(秒)a1.sinks.s1.hdfs.rollInterval=30#文件多大之后生成新的文件(字节)a1.sinks.s1.hdfs.rollSize=1024#文件个...原创 2020-02-22 21:12:23 · 823 阅读 · 0 评论 -
二分查找(二分查找之前,内容都是从小到大排好序的)
Scala 版的// lines是字典表array(起始ip,终止ip,ip所在省份) ip是要查找的东西 def binarySearch(lines: Array[(String, String, String)], ip: Long) : Int = { var low = 0 var high = lines.length - 1 whil...原创 2020-02-19 11:24:05 · 722 阅读 · 0 评论 -
MapReducer运行原理图
1、有多少个切片就会默认启动多少个maptask ,每个maptask会处理一个切片(split默认是 128M )2、环形缓冲区默认大小是 100M,溢写比是 80% mapred-site.xml文件中的io.sort.mb的配置项配置...原创 2020-02-29 20:01:40 · 267 阅读 · 0 评论 -
点击流业务知识点 (个人总结)
原始数据 字段名是 referer1、 切割表中的 url 路径(带引号的字符串),解析出 PROTOCOL,HOST,PATH,QUERY 等字段create table t_ods_tmp_referurl asselect a.*,b.* from ods_weblog_origin as a lateral view parse_url_tuple(reg...原创 2020-03-01 12:58:17 · 182 阅读 · 0 评论 -
Dstream的三个特殊原语
Dstream 上的原语跟RDD相似,分为Transformations(转换)和Output Operations(输出)两种,此外转换操作中还有一些特殊的 原语updateStateByKey()//从kafka中获取数据(格式是 a hello joy)进行词频统计,并且前一次统计的结果跟下一次的结果进行累加,一直叠加//用 updateStateByKey 实现累加de...原创 2020-03-15 15:18:48 · 179 阅读 · 0 评论 -
数组内部排序(交换式排序)
冒泡排序(Bubble Sorting) int[] a = {1,4,2,5,10,3}; // 中间变量 int tmp=0; //冒泡排序 //1、比较的次数 一共有6个数,所以只需比较5次即可 for(int i=0;i<a.length-1;i++){ /...原创 2020-03-15 12:08:44 · 373 阅读 · 0 评论 -
数组内部排序(选择式排序)
我发送到发送到原创 2020-03-15 11:47:24 · 322 阅读 · 0 评论 -
hive 中的正则表达式(筛选车牌号)
* 和+ 的区别* 是0次或多次+ 是一次或多次匹配 车牌号开头是汉字,中间是任意字符,结尾是汉字 或者 是任意字符select * from jt where hphm rlike '^[\\\u4e00-\\\u9fa5]\\w+[\\\u4e00-\\\u9fa5]|[\\\u4e00-\\\u9fa5]\\w+$';**如果是一下这种情况,车牌号是 沪BA306警 这种的就会...原创 2020-03-12 21:24:11 · 1407 阅读 · 0 评论 -
编写udf函数,进行业务处理
元数据s number京 2冀 4吉 2川 2桂 4沪 601津 1浙 50湘 1琼 1皖 57粤 5苏 130豫 9贵 1赣 10辽 1鄂 3闽 9鲁 ...原创 2020-03-12 19:33:11 · 331 阅读 · 0 评论