- 博客(16)
- 资源 (2)
- 收藏
- 关注
原创 spark streaming 读kafka写入hbase报错
使用spark streaming消费kafka topic系消息, 再写入到hbase中, 使用spark submit 他job时,报了一些错误, 此处归纳一下:1, io.netty.handler.codec.EncoderException: java.lang.NoSuchMethodError: io.netty.channel.DefaultFileRegion.(Ljava/i...
2018-11-30 18:34:53 1049
原创 spark sql: rdd 和 DataFrame的转换
1, DataFrame和 DataSet的关系type DataFrame = Dataset[Row]2, RDD 和 DataFrame 的关系import sparkSession.implicits._val df = rdd.toDF3, 把一般化数据, 变为结构化数据, 使用sql等工具进行查询import org.apache.spark.sql.SparkSess...
2018-11-30 09:58:47 1029
原创 spark sql 操作hbase表
在hbase表 [ns1:person] 中有如下数据hbase(main):073:0> scan 'ns1:person'ROW COLUMN+CELL ...
2018-11-27 19:13:40 1974
原创 spark rdd 读写hbase数据
hive 作为mapreduce计算引擎, 可以使用hql来操作hbase表 (hbase也可以访问hive表的数据), spark也是计算引擎,按理也是可以读写hbase数据的使用idea + maven 读写hbase数据, 操作如下:1, 添加maven依赖 <dependency> <groupId>org.a
2018-11-26 18:46:54 986
原创 VirtualBox 虚拟机磁盘扩展
使用virtualBox的虚拟机, 当虚拟机的磁盘不够用时,如何扩展磁盘空间?找到VBoxManage 命令查看帮助: VBoxManage --help输入命令 : VBoxManage modifymedium 虚拟机磁盘文件路径 --resize 40960...
2018-11-24 10:12:46 847
原创 spark job提交:spark-submit
一般化的参数:spark-submit \ --supervise #driver失败时重启 \--name wordcount \--master yarn-cluster \--num-executors 100 \--executor-memory 6G \--executor-cores 4 \--driver-memory 8G \--conf spark.defa...
2018-11-10 11:20:49 618
原创 hive:自定义UDF函数-extends UDF
简单函数,对int, String, boolean类型的操作, 可以直接集成UDF, 编写evalute方法即可,如图:打包后,在hive命令行中添加该jar包,即可创建自定义函数:hive> delete jar /home/wang/sparkTest/out/artifacts/sc2_jar/sc2.jar;Deleted [/home/wang/sparkTest/ou...
2018-11-09 22:25:54 1032
原创 spark streaming的入门案例
1, spark streaming: tcp 源maven依赖:<dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-streaming_2.11</artifactId> &
2018-11-08 21:45:38 352
原创 spark streaming + redis : 实时统计日注册率
使用spark streaming 实时统计新注册的用户流程如下:代码如下:1, 添加maven依赖<!--hive依赖--><dependency> <groupId>mysql&l
2018-11-08 21:14:14 1366
原创 spark sql: SparkSession操作hive表
目标: 实现类似于navicat的功能=> 写hql语句,在idea下使用spark sql 一键运行,而不用到shell窗口下运行命令步骤: 写sql文件 (resources目录)—> 读取内容 --> 以 ‘;’ 解析每条命令 -->sparksql
2018-11-08 19:20:50 2388
原创 hive: 自定义UDTF
在hive项目中, 有client和server通信的log日志体系如下,中间的网络传输使用的json格式,所以在server端接收时需要使用阿里的fastJSON来解析为日志聚合体LogAgg类;然后使用自定义表生成函数UDTF, 分别取出Error表, Event表,StartUp表的数据, 数据转储到各表中,完成日志的初步ETL。所以,这个UDTF如何定义?类似于上篇的自定义UDF函数...
2018-11-03 19:11:39 2237
原创 java增强: ssm框架整合
整合思路: 各组件的关联关系 配置文件: 组合各组件的关系 ssm的使用: jsp + jstl + servlet = mysql的curd操作part1: 组织配置文件 (整合ssm)使用idea 新建module-->java web--->add framework support: maven, 项目结构如下第一步: 使用maven 管...
2018-11-03 17:58:51 336
原创 hive-自定义UDF函数- extends GenericUDF
在项目中遇到某些场景需要自定义函数,如日期处理:那么如何在hive中要自定udf函数呢? 只要定义一个类Myudf 继承org.apache.hadoop.hive.ql.udf.generic.GenericUDF,然后打成Jar包, 发送到hive所在机器或hdfs, 登录hive, 使用命令创建函数:create function myfun1 as "包名.Myudf&a
2018-11-03 17:46:33 8717
原创 spark sql: 变量共享,文本内容存入数据库
现有数据格式如下:(csv格式,10G)#province-city-reqapp.txt广西,桂州,reqmode=false,processmode=true,app3广东,深圳,reqmode=true,processmode=false,app1湖南,长沙,reqmode=true,processmode=true,app2#app.txtapp1,爱奇艺app2,搜狐a...
2018-11-01 17:22:45 1300
原创 hbase的api使用:scan,get,put,delete
一般化的curd批次查询,插入在idea中导入maven依赖,创建Junit Test类 <dependency> <groupId>org.apache.hbase</groupId> &lt
2018-11-01 09:10:57 870
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人