自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(16)
  • 资源 (2)
  • 收藏
  • 关注

原创 spark streaming 读kafka写入hbase报错

使用spark streaming消费kafka topic系消息, 再写入到hbase中, 使用spark submit 他job时,报了一些错误, 此处归纳一下:1, io.netty.handler.codec.EncoderException: java.lang.NoSuchMethodError: io.netty.channel.DefaultFileRegion.(Ljava/i...

2018-11-30 18:34:53 1049

原创 spark sql: rdd 和 DataFrame的转换

1, DataFrame和 DataSet的关系type DataFrame = Dataset[Row]2, RDD 和 DataFrame 的关系import sparkSession.implicits._val df = rdd.toDF3, 把一般化数据, 变为结构化数据, 使用sql等工具进行查询import org.apache.spark.sql.SparkSess...

2018-11-30 09:58:47 1029

原创 spark sql 操作hbase表

在hbase表 [ns1:person] 中有如下数据hbase(main):073:0> scan 'ns1:person'ROW COLUMN+CELL ...

2018-11-27 19:13:40 1974

原创 spark rdd 读写hbase数据

hive 作为mapreduce计算引擎, 可以使用hql来操作hbase表 (hbase也可以访问hive表的数据), spark也是计算引擎,按理也是可以读写hbase数据的使用idea + maven 读写hbase数据, 操作如下:1, 添加maven依赖 <dependency> <groupId>org.a

2018-11-26 18:46:54 986

原创 VirtualBox 虚拟机磁盘扩展

使用virtualBox的虚拟机, 当虚拟机的磁盘不够用时,如何扩展磁盘空间?找到VBoxManage 命令查看帮助: VBoxManage --help输入命令 : VBoxManage modifymedium 虚拟机磁盘文件路径 --resize 40960...

2018-11-24 10:12:46 847

原创 spark job提交:spark-submit

一般化的参数:spark-submit \ --supervise #driver失败时重启 \--name wordcount \--master yarn-cluster \--num-executors 100 \--executor-memory 6G \--executor-cores 4 \--driver-memory 8G \--conf spark.defa...

2018-11-10 11:20:49 618

原创 hive:自定义UDF函数-extends UDF

简单函数,对int, String, boolean类型的操作, 可以直接集成UDF, 编写evalute方法即可,如图:打包后,在hive命令行中添加该jar包,即可创建自定义函数:hive> delete jar /home/wang/sparkTest/out/artifacts/sc2_jar/sc2.jar;Deleted [/home/wang/sparkTest/ou...

2018-11-09 22:25:54 1032

原创 spark streaming的入门案例

1, spark streaming: tcp 源maven依赖:<dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-streaming_2.11</artifactId> &amp

2018-11-08 21:45:38 352

原创 spark streaming + redis : 实时统计日注册率

使用spark streaming 实时统计新注册的用户流程如下:代码如下:1, 添加maven依赖<!--hive依赖--><dependency> <groupId>mysql&l

2018-11-08 21:14:14 1366

原创 spark sql: SparkSession操作hive表

目标: 实现类似于navicat的功能=> 写hql语句,在idea下使用spark sql 一键运行,而不用到shell窗口下运行命令步骤: 写sql文件 (resources目录)—> 读取内容 --> 以 ‘;’ 解析每条命令 -->sparksql

2018-11-08 19:20:50 2388

原创 hive: 自定义UDTF

在hive项目中, 有client和server通信的log日志体系如下,中间的网络传输使用的json格式,所以在server端接收时需要使用阿里的fastJSON来解析为日志聚合体LogAgg类;然后使用自定义表生成函数UDTF, 分别取出Error表, Event表,StartUp表的数据, 数据转储到各表中,完成日志的初步ETL。所以,这个UDTF如何定义?类似于上篇的自定义UDF函数...

2018-11-03 19:11:39 2237

原创 java增强: ssm框架整合

整合思路: 各组件的关联关系 配置文件: 组合各组件的关系 ssm的使用: jsp + jstl + servlet = mysql的curd操作part1: 组织配置文件 (整合ssm)使用idea 新建module-->java web--->add framework support: maven, 项目结构如下第一步: 使用maven 管...

2018-11-03 17:58:51 336

原创 hive-自定义UDF函数- extends GenericUDF

在项目中遇到某些场景需要自定义函数,如日期处理:那么如何在hive中要自定udf函数呢? 只要定义一个类Myudf 继承org.apache.hadoop.hive.ql.udf.generic.GenericUDF,然后打成Jar包, 发送到hive所在机器或hdfs, 登录hive, 使用命令创建函数:create function myfun1 as "包名.Myudf&a

2018-11-03 17:46:33 8717

原创 scala集合: 增删改查

1,数组2,List,ListBuffer3, Map , mutable.Map

2018-11-02 12:07:45 1442

原创 spark sql: 变量共享,文本内容存入数据库

现有数据格式如下:(csv格式,10G)#province-city-reqapp.txt广西,桂州,reqmode=false,processmode=true,app3广东,深圳,reqmode=true,processmode=false,app1湖南,长沙,reqmode=true,processmode=true,app2#app.txtapp1,爱奇艺app2,搜狐a...

2018-11-01 17:22:45 1300

原创 hbase的api使用:scan,get,put,delete

一般化的curd批次查询,插入在idea中导入maven依赖,创建Junit Test类 <dependency> <groupId>org.apache.hbase</groupId> &lt

2018-11-01 09:10:57 870

ck-3node-conf.tar.gz

clickhouse基于zookeeper的集群配置

2022-01-07

presto-cli-0.266.1-executable.jar

presto客户端

2021-12-28

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除