- 博客(16)
- 资源 (4)
- 收藏
- 关注
转载 Hive 行列转换
一、列转行(对某列拆分,一列拆多行)使用函数:lateral view explode(split(column, ',')) numeg: 如表:t_row_to_column_tmp 数据如下,对tag列进行拆分SQL代码:select id,tag,tag_new from t_row_to_column_tmplateral view explode(spl...
2019-08-28 15:05:23 273
转载 HDFS的Java客户端操作代码(查看HDFS下的文件是否存在)详解
查看HDFS目录下得文件是否存在 1 package Hdfs; 2 3 import java.io.IOException; 4 import java.net.URI; 5 import org.apache.hadoop.conf.Configuration; 6 import org.apache.hadoop.fs.FileSystem; 7 impor...
2019-08-28 11:12:10 355
转载 Flink是如何实现exactly-once语义的
Flink跟其他的流计算引擎相比,最突出或者做的最好的就是状态的管理.什么是状态呢?比如我们在平时的开发中,需要对数据进行count,sum,max等操作,这些中间的结果(即是状态)是需要保存的,因为要不断的更新,这些值或者变量就可以理解为是一种状态,拿读取kafka为例,我们需要记录数据读取的位置(即是偏移量),并保存offest,这时offest也可以理解为是一种状态.Flink是怎么保证...
2019-08-27 14:33:01 3484 1
原创 MapReduce流程描述
一个mr程序启动的时候,最先启动的是MRAppMaster,MRAppMaster启动后根据本次job的描述信息,计算出需要的maptask实例数量,然后向集群申请机器启动相应数量的maptask进程 maptask进程启动之后,根据给定的数据切片范围进行数据处理,主体流程为: 利用客户指定的inputformat来获取RecordReader读取数据,形成输入KV对 将输入KV对传递给客...
2019-08-27 11:40:42 232
原创 linux 乱码文件删除
首页进入乱码文件所在文件夹/var/www/eqxiu/使用ls -i命令找到文件或文件夹的节点编号ls -i巧用find命令删除Linux下乱码文件及文件夹find -inum 681189 -delete前面的就是节点号了,接下来使用find命令查询并且删除巧用find命令删除Linux下乱码文件及文件夹-inum指根据节点号查询;-delete顾名思义就是删除操...
2019-08-23 15:27:56 178
原创 ERROR SparkContext:无法指定请求的地址: bind: Service 'sparkDriver' failed after 16 retries!
18/10/25 13:07:58 WARN Utils: Service 'sparkDriver' could not bind on port 0. Attempting port 1.18/10/25 13:07:58 WARN Utils: Service 'sparkDriver' could not bind on port 0. Attempting port 1.18/10/...
2019-08-22 16:51:34 983
转载 Spark读取MySQL数据
import java.util.{Properties, UUID} import org.apache.spark.sql.{SaveMode, SparkSession} import org.apache.spark.SparkConf object SparkReadMySQL { def main(args:Array[String]):Unit = { val appNameSuff...
2019-08-21 11:43:38 854
原创 Linux:命令行光标移动和删除整行
ctrl+a ctrl+e 分别代表把管标移动到最前和最后ctrl+u ctrl+k 分别代表光标处往前和光标处往后删除
2019-08-19 17:28:52 858
原创 MongoDB模糊查询
模糊查询简介MongoDB查询条件可以使用正则表达式,从而实现模糊查询的功能。模糊查询可以使用$regex操作符或直接使用正则表达式对象。MySQL MongoDB select * from student wherename like ’%joe%’ db.student.find({name:{$regex:/joe/}}) ...
2019-08-19 14:49:11 833
原创 ERROR yarn.ApplicationMaster: Promise already completed.
使用sparkStreaming读取kafka数据时,再需要借助hdfs存储路径下的文件可借助streamingContext,不使用spark.sparkSession即可
2019-08-09 17:06:28 556
原创 Mysql 存在既更新,不存在就添加(sql语句)
INSERT 语句的一部分,如果指定 ON DUPLICATE KEY UPDATE ,并且插入行后会导致在一个UNIQUE索引或PRIMARY KEY中出现重复值,则在出现重复值的行执行UPDATE,如果不会导致唯一值列重复的问题,则插入新行sql 语句原型:insert into table (player_id,award_type,num) values(20001,0,1) on...
2019-08-07 11:58:35 2320
原创 mysql 添加索引 创建索引
-- 1.添加PRIMARY KEY(主键索引)ALTER TABLE `table_name` ADD PRIMARY KEY (`column`) ;-- 2.添加UNIQUE(唯一索引)ALTER TABLE `table_name` ADD UNIQUE (`column`);-- 3.添加INDEX(普通索引)ALTER TABLE `table_name` ADD IN...
2019-08-05 10:59:26 664
转载 Spark Streaming性能调优详解
SparkStreaming提供了高效便捷的流式处理模式,但是在有些场景下,使用默认的配置达不到最优,甚至无法实时处理来自外部的数据,这时候我们就需要对默认的配置进行相关的修改。由于现实中场景和数据量不一样,所以我们无法设置一些通用的配置(要不然SparkStreaming开发者就不会弄那么多参数,直接写死不得了),我们需要根据数据量,场景的不同设置不一样的配置,这里只是给出建议,这些调优不一...
2019-08-01 10:51:37 394
原创 Spark Streaming时间间隔性能测试
SparkStreaming能支持的最短时间间隔取决于数据源产生的速度,及对RDD的操作。本文针对同一数据源(日志由spark实时收集),测试RDD几种操作对应的合适的时间间隔。时间间隔time以如下形式作用于spark streaming:new StreamingContext(sparkConf, Milliseconds(time.toLong))测试数据源: log data w...
2019-08-01 10:42:56 2187
原创 sparkstreaming和kafka0.10版本整合
https://blog.csdn.net/sinat_27545249/article/details/78471034#%E5%9C%A8checkpoint%E4%B8%AD%E5%AD%98%E5%82%A8
2019-08-01 10:17:28 496
OpenSceneGraph三维渲染引擎设计与实践
2018-04-19
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人