2018年11月_根哥的博客

原创 spark streaming 读kafka写入hbase报错

使用spark streaming消费kafka topic系消息，再写入到hbase中，使用spark submit 他job时，报了一些错误，此处归纳一下：1, io.netty.handler.codec.EncoderException: java.lang.NoSuchMethodError: io.netty.channel.DefaultFileRegion.(Ljava/i...

2018-11-30 18:34:53 1049

原创 spark sql： rdd 和 DataFrame的转换

1， DataFrame和 DataSet的关系type DataFrame = Dataset[Row]2， RDD 和 DataFrame 的关系import sparkSession.implicits._val df = rdd.toDF3, 把一般化数据，变为结构化数据，使用sql等工具进行查询import org.apache.spark.sql.SparkSess...

2018-11-30 09:58:47 1029

原创 spark sql 操作hbase表

在hbase表 [ns1:person] 中有如下数据hbase(main):073:0&gt; scan 'ns1:person'ROW COLUMN+CELL ...

2018-11-27 19:13:40 1974

hive 作为mapreduce计算引擎，可以使用hql来操作hbase表（hbase也可以访问hive表的数据)， spark也是计算引擎，按理也是可以读写hbase数据的使用idea + maven 读写hbase数据，操作如下：1，添加maven依赖 &amp;amp;lt;dependency&amp;amp;gt; &amp;amp;lt;groupId&amp;amp;gt;org.a

2018-11-26 18:46:54 986

原创 VirtualBox 虚拟机磁盘扩展

使用virtualBox的虚拟机，当虚拟机的磁盘不够用时，如何扩展磁盘空间？找到VBoxManage 命令查看帮助： VBoxManage --help输入命令 : VBoxManage modifymedium 虚拟机磁盘文件路径 --resize 40960...

2018-11-24 10:12:46 847

原创 spark job提交：spark-submit

一般化的参数：spark-submit \ --supervise #driver失败时重启 \--name wordcount \--master yarn-cluster \--num-executors 100 \--executor-memory 6G \--executor-cores 4 \--driver-memory 8G \--conf spark.defa...

2018-11-10 11:20:49 618

原创 hive:自定义UDF函数-extends UDF

简单函数，对int, String, boolean类型的操作，可以直接集成UDF, 编写evalute方法即可，如图：打包后，在hive命令行中添加该jar包，即可创建自定义函数：hive> delete jar /home/wang/sparkTest/out/artifacts/sc2_jar/sc2.jar;Deleted [/home/wang/sparkTest/ou...

2018-11-09 22:25:54 1032

原创 spark streaming的入门案例

1， spark streaming： tcp 源maven依赖：&lt;dependency&gt; &lt;groupId&gt;org.apache.spark&lt;/groupId&gt; &lt;artifactId&gt;spark-streaming_2.11&lt;/artifactId&gt; &amp

2018-11-08 21:45:38 352

原创 spark streaming + redis : 实时统计日注册率

使用spark streaming 实时统计新注册的用户流程如下：代码如下：1，添加maven依赖&amp;amp;amp;lt;!--hive依赖--&amp;amp;amp;gt;&amp;amp;amp;lt;dependency&amp;amp;amp;gt; &amp;amp;amp;lt;groupId&amp;amp;amp;gt;mysql&amp;amp;amp;l

2018-11-08 21:14:14 1366

原创 spark sql: SparkSession操作hive表

目标：实现类似于navicat的功能=&amp;amp;amp;amp;amp;gt; 写hql语句，在idea下使用spark sql 一键运行，而不用到shell窗口下运行命令步骤：写sql文件 (resources目录)—&amp;amp;amp;amp;amp;gt; 读取内容 --&amp;amp;amp;amp;amp;gt; 以 ‘;’ 解析每条命令 --&amp;amp;amp;amp;amp;gt;sparksql

2018-11-08 19:20:50 2388

原创 hive: 自定义UDTF

在hive项目中，有client和server通信的log日志体系如下，中间的网络传输使用的json格式，所以在server端接收时需要使用阿里的fastJSON来解析为日志聚合体LogAgg类；然后使用自定义表生成函数UDTF, 分别取出Error表, Event表，StartUp表的数据, 数据转储到各表中，完成日志的初步ETL。所以，这个UDTF如何定义？类似于上篇的自定义UDF函数...

2018-11-03 19:11:39 2237

原创 java增强: ssm框架整合

整合思路: 各组件的关联关系配置文件: 组合各组件的关系 ssm的使用: jsp + jstl + servlet = mysql的curd操作part1: 组织配置文件 (整合ssm)使用idea 新建module-->java web--->add framework support: maven, 项目结构如下第一步: 使用maven 管...

2018-11-03 17:58:51 336

原创 hive-自定义UDF函数- extends GenericUDF

在项目中遇到某些场景需要自定义函数，如日期处理：那么如何在hive中要自定udf函数呢？只要定义一个类Myudf 继承org.apache.hadoop.hive.ql.udf.generic.GenericUDF，然后打成Jar包, 发送到hive所在机器或hdfs, 登录hive, 使用命令创建函数：create function myfun1 as &amp;amp;amp;amp;amp;amp;amp;amp;quot;包名.Myudf&amp;amp;a

2018-11-03 17:46:33 8717

原创 scala集合：增删改查

1，数组2，List，ListBuffer3, Map , mutable.Map

2018-11-02 12:07:45 1442

原创 spark sql: 变量共享，文本内容存入数据库

现有数据格式如下：（csv格式，10G）#province-city-reqapp.txt广西,桂州,reqmode=false,processmode=true,app3广东,深圳,reqmode=true,processmode=false,app1湖南,长沙,reqmode=true,processmode=true,app2#app.txtapp1,爱奇艺app2,搜狐a...

2018-11-01 17:22:45 1300

原创 hbase的api使用：scan,get,put,delete

一般化的curd批次查询，插入在idea中导入maven依赖，创建Junit Test类 &amp;amp;lt;dependency&amp;amp;gt; &amp;amp;lt;groupId&amp;amp;gt;org.apache.hbase&amp;amp;lt;/groupId&amp;amp;gt; &amp;amp;lt

2018-11-01 09:10:57 870

eyeofeagle的博客