大数据-spark
spark
根哥的博客
big world needs big-data-manager !
展开
-
hive on spark: 数据统计分析
1, 需求分析数据源/数据格式 : 某医院的hbase表–> 映射hive 外表–> 使用hive函数分析数据person_name oper_code oper_time oper_group_numperson1 1 2018/9/3 12:23 person1_0001person1 2 ...原创 2019-10-22 10:40:43 · 985 阅读 · 0 评论 -
使用代码管理 spark作业: submit, kill
1, spark job提交import org.apache.spark.launcher.SparkLauncher;import java.io.IOException;import java.util.HashMap;public class Submit_launcher { public static void main(String[] args) throw...原创 2019-01-14 12:14:14 · 1863 阅读 · 1 评论 -
spark streaming程序的优雅关闭
使用ssc.awaitTermination()来退出,程序只能在开始的终端处control + c来结束,不方便管理, 所以使用自定义方法来替换掉: stopByMarkFile(ssc,hadoop_file), 代码如下def stopByMarkFile(ssc:StreamingContext, hadoop_file:String):Unit= { val intervalM...原创 2019-01-14 15:54:10 · 2610 阅读 · 1 评论 -
CDH5.6:spark(rdd, sql)性能对比
hbase 表:602401条数据, 两种计算方式对比结果:rdd使用cache()单次计算: 90秒计算量增加不影响时间消耗编程难度较大df 使用registerTempTable(" xx ")单次计算: 110秒计算量增加会逐步增加时间的消耗编程难度较小spark rdd----- > 1次: time= 91,481 1.5分钟 ...原创 2019-01-16 17:14:25 · 1318 阅读 · 1 评论 -
idea编写spark遇到的错误:class "javax.servlet.FilterRegistration"'s signer information does not match signer
在cdh5.6集群里,运行spark streaming on yarn 遇到的一些错误和异常:1, kafka生产者 java.lang.OutOfMemoryError为了测试spark-streaming-kafka 的程序是否正常运作,打包kafka正产者为可执行jar包, 提交到集群运行: java -jar xx.jar, 报如下错误D->8540099,SEX-&a原创 2018-12-28 14:15:44 · 1919 阅读 · 0 评论 -
spark实际应用1:字段长度检测(有状态更新)
1, kafka数据格式: PERSON_NAME->渠莲,DOC_NAME->入院记录,ID_CARD_NO-原创 2019-02-18 11:55:36 · 2041 阅读 · 1 评论 -
spark streaming消费flume数据
kafka和flume都可以承载实时数据,而spark streaming号称实时计算,也是可以消费flume数据的flume数据源 =>sink: spark 启动的avro监听端口==> dstream实时流计算1,启动sink端(spark): 开启socket监听sink原创 2019-02-26 11:29:35 · 1082 阅读 · 0 评论 -
sparksql: RDD ,DataFrame, DataSet
1, 基本概念spark 1.5及以前范围类名创建来源spark coreRDD: 封装基本数据(int,tuple )sparkContext.parallelize(1 to 3)spark sqlDataFrame: RDD[Row]sQLContext.read.json(…)spark streamingDStream: [rdd,rd...原创 2019-03-27 15:48:37 · 384 阅读 · 0 评论 -
spark sql: 操作hbase表——rdd实现sql查询
hbase数据:(需求–按年龄分组,求出各年龄段的总人数,计算结果保存mysql)hbase(main):006:0> scan 'p1'ROW COLUMN+CELL ...原创 2019-05-08 01:11:58 · 1941 阅读 · 0 评论 -
spark-core-> spark-sql: rdd转化为dataFrame
rdd.toDFval rdd1 = rdd.map(result => { val f1 = Bytes.toString(result.getValue(Bytes.toBytes("f"), Bytes.toBytes("field1"))) val f2 = Bytes.toString(result.getValue(Bytes.toBytes("f"), Bytes.t...原创 2019-07-11 17:38:23 · 373 阅读 · 0 评论 -
spark sql: HiveContext操作hive表
使用cdh搭建hadoop集群, 下载hive客户端配置文件1,配置pom.xml<dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.10</artifactId> <version>1.5.0-c...原创 2019-08-22 18:36:14 · 1862 阅读 · 0 评论 -
spark streaming 读kafka写入hbase报错
使用spark streaming消费kafka topic系消息, 再写入到hbase中, 使用spark submit 他job时,报了一些错误, 此处归纳一下:1, io.netty.handler.codec.EncoderException: java.lang.NoSuchMethodError: io.netty.channel.DefaultFileRegion.(Ljava/i...原创 2018-11-30 18:34:53 · 1049 阅读 · 0 评论 -
spark sql 操作hbase表
在hbase表 [ns1:person] 中有如下数据hbase(main):073:0&gt; scan 'ns1:person'ROW COLUMN+CELL ...原创 2018-11-27 19:13:40 · 1981 阅读 · 0 评论 -
spark: rdd的应用(scala api)
wordcount: 统计词频, 排序历年温度最值: max, min, avg//word.txtvar file=&amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;quot;/home/wang/txt/word.txt&amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;quot; //a b c e f e fimport org.apache.spark.rdd.RDD v原创 2018-10-10 10:37:26 · 474 阅读 · 0 评论 -
spark: rdd的应用(java api)
wordcount: 统计词频, 排序 (jdk7, jdk8-lambda表达式)历年温度最值: max, min, avgpublic static void main(String[] args){ //conf SparkConf conf = new SparkConf(); conf.setMaster(&amp;amp;amp;amp;quot;local&amp;amp;amp;amp;qu原创 2018-10-10 13:53:40 · 393 阅读 · 0 评论 -
spark 访问hive表报错
spark访问hive表: 在spark/conf目录下:引入hive配置文件ln -sf /soft/hive/conf/hive-site.xml /soft/spark/conf/错误1:Hive Schema version 1.2.0 does not match metastore’s schema version 2.3.0原因: hive版本不一致, 查看hive在mys...原创 2018-10-25 18:08:54 · 1780 阅读 · 0 评论 -
spark sql: 变量共享,文本内容存入数据库
现有数据格式如下:(csv格式,10G)#province-city-reqapp.txt广西,桂州,reqmode=false,processmode=true,app3广东,深圳,reqmode=true,processmode=false,app1湖南,长沙,reqmode=true,processmode=true,app2#app.txtapp1,爱奇艺app2,搜狐a...原创 2018-11-01 17:22:45 · 1302 阅读 · 0 评论 -
spark job提交:spark-submit
一般化的参数:spark-submit \ --supervise #driver失败时重启 \--name wordcount \--master yarn-cluster \--num-executors 100 \--executor-memory 6G \--executor-cores 4 \--driver-memory 8G \--conf spark.defa...原创 2018-11-10 11:20:49 · 618 阅读 · 0 评论 -
spark streaming + redis : 实时统计日注册率
使用spark streaming 实时统计新注册的用户流程如下:代码如下:1, 添加maven依赖&amp;amp;amp;lt;!--hive依赖--&amp;amp;amp;gt;&amp;amp;amp;lt;dependency&amp;amp;amp;gt; &amp;amp;amp;lt;groupId&amp;amp;amp;gt;mysql&amp;amp;amp;l原创 2018-11-08 21:14:14 · 1366 阅读 · 0 评论 -
spark sql: SparkSession操作hive表
目标: 实现类似于navicat的功能=&amp;amp;amp;amp;amp;gt; 写hql语句,在idea下使用spark sql 一键运行,而不用到shell窗口下运行命令步骤: 写sql文件 (resources目录)—&amp;amp;amp;amp;amp;gt; 读取内容 --&amp;amp;amp;amp;amp;gt; 以 ‘;’ 解析每条命令 --&amp;amp;amp;amp;amp;gt;sparksql原创 2018-11-08 19:20:50 · 2398 阅读 · 0 评论 -
spark streaming的入门案例
1, spark streaming: tcp 源maven依赖:&lt;dependency&gt; &lt;groupId&gt;org.apache.spark&lt;/groupId&gt; &lt;artifactId&gt;spark-streaming_2.11&lt;/artifactId&gt; &原创 2018-11-08 21:45:38 · 353 阅读 · 0 评论 -
spark rdd 读写hbase数据
hive 作为mapreduce计算引擎, 可以使用hql来操作hbase表 (hbase也可以访问hive表的数据), spark也是计算引擎,按理也是可以读写hbase数据的使用idea + maven 读写hbase数据, 操作如下:1, 添加maven依赖 &amp;amp;lt;dependency&amp;amp;gt; &amp;amp;lt;groupId&amp;amp;gt;org.a原创 2018-11-26 18:46:54 · 987 阅读 · 0 评论 -
spark sql: rdd 和 DataFrame的转换
1, DataFrame和 DataSet的关系type DataFrame = Dataset[Row]2, RDD 和 DataFrame 的关系import sparkSession.implicits._val df = rdd.toDF3, 把一般化数据, 变为结构化数据, 使用sql等工具进行查询import org.apache.spark.sql.SparkSess...原创 2018-11-30 09:58:47 · 1029 阅读 · 0 评论 -
spark的shell脚本分析
bin目录: spark-shell, spark-submitsbin目录:part1: bin目录spark-shellfunction main() { export SPARK_SUBMIT_OPTS &amp;amp;amp;amp;amp;amp;amp;quot;${SPARK_HOME}&amp;amp;amp;amp;amp;amp;amp;quot;/bin/spark-submit --class org.apache.spa原创 2018-10-14 22:20:19 · 1326 阅读 · 0 评论