spark
文章平均质量分 57
AuroraPetard
这个作者很懒,什么都没留下…
展开
-
sparkStreaming常见问题
spark kafka原创 2022-06-13 22:33:24 · 611 阅读 · 0 评论 -
按照时间戳消费topic
sparkStreaming 从指定时间戳开始消费kafka topic def getOffsetByTimestamp(kafkaParams: collection.Map[String, Object], time: String, topic: String): mutable.HashMap[TopicPartition, Long] = { val consumer = new KafkaConsumer[String, String](new java.util.HashMap原创 2022-01-07 15:01:06 · 942 阅读 · 0 评论 -
sparkStreaming 写入 hdfs
1.saveAsTextFile value.repartition(1).map(_.mkString(",")).foreachRDD(rdd => { rdd.saveAsTextFile("hdfs://localhost:8020/log/" + System.currentTimeMillis())saveAsTextFile不支持追加。如果使用固定文件名调用,则每次都会覆盖它。 我们每次都可以saveAsTextFile(path+timestamp(System.cur原创 2020-08-07 22:21:47 · 3064 阅读 · 1 评论 -
spark submit提交任务一直卡在ACCEPTED状态
千辛万苦写好代码,打成jar包,spark submit提交运行到yarn然后默默打开yarn界面查看运行的任务,但是半天不见任务名称,这可就奇了怪了查看yarn application --list | grep appName 发现状态一直是accepted 接收正常应该是running,之前的代码也没毛病,也能提交,也能运行遂检查代码发现 .setMaster("local[*]") //local本地本地模式竟然没有注释掉,本地模式只能在本地运行,测试的时候使用,提交到.原创 2020-07-20 23:16:15 · 3536 阅读 · 0 评论 -
sparkStreaming 消费下沉 kafka 以及调优
sparkStreaming 消费下沉 kafka 以及调优1 sparkStreaming 消费kafka主要方式有两种:receiver方式、Direct方式Receiver方式利用kafka高阶的api,将数据存储到exectors,这种方法会丢失数据,要确保零丢失需要开启WAL (write ahead log)即将数据存到 hdfs上面一份 需要设置 KafkaUtils.createStream(..., StorageLevel.MEMORY_AND_DISK_SER)),即使数据会丢失原创 2020-05-27 23:06:32 · 256 阅读 · 0 评论 -
csv忽略双引号中的逗号
情况如下原始数据如这样cat test.csva,b,c,"ff,kk",d,"ee,mm"csv默认以逗号分割如果以此形式直接load 进入hive表 csv 进入hive表默认分割符号也为逗号load data inpath 'test.csv' into table test数据会变成这样 a,b,c,ff,kk,d,ee,mm那肯定不行因为一个字段被切...原创 2020-02-13 23:24:38 · 1519 阅读 · 0 评论 -
spark streaming 运行日志太多
cp log4j.properties.template log4j.properties将其中的改为log4j.rootCategory=ERROR, console其实就是修改日志级别然后将log4j.properties 放入到rsources目录下原创 2019-09-07 23:19:20 · 896 阅读 · 0 评论 -
Spark 运行问题 java.lang.NoSuchMethodError: scala.Predef 解决方案
spark 程序在idea本地跑没问题但一旦打包jar 提交到集群 就报这个错百度一下说是scala 版本的问题 ,检查了下maven pom spark scala scala-sdk jdk version 都非常匹配没有毛病啊最后发现在 项目的 iml文件中去掉不同版本的scala的orderEntry就能解决。只保留一个通常我都是 spark 2.3.2 jdk1.8...原创 2019-07-31 22:18:33 · 641 阅读 · 0 评论 -
spark scala 的一些数据预处理 进制转换 时间转换
1 进制转换:将16进制转换成字节码//每两位转成一位 spark.udf.register("hexChar", (x: String) => { val sb = new StringBuilder for (i <- Range(0, x.length, 2)) { val output = x.substrin...原创 2019-06-11 23:04:35 · 1336 阅读 · 0 评论 -
spark sql 自定义函数以及dataframe Row的解析
//自定义函数val spark = SparkSession .builder() .master("local[*]") .appName("dataDeal") .getOrCreate()spark.udf.register("functionName", (args: String) => { if (args...原创 2019-06-08 17:32:55 · 2833 阅读 · 0 评论 -
kafka sparkStreaming hbase mysql 整合案例
通过flume向kafka的topic发送数据,sparkstreaming去消费topic中的数据清洗处理,最后存储到hbase中flume sink.conf待续通过命令行提前创建一个topicbin/kafka-topics.sh --create --bootstrap-server localhost:9092 --replication-factor 1 --parti...原创 2019-05-26 23:19:22 · 833 阅读 · 1 评论 -
简单版推荐系统
此项目主要是基于ALS,主流推荐算法,包括基于用户的协同过滤 UserCF,基于物品的协同过滤ItemCFUserCF:推荐和你相似用户所购买的物品ItemCF:推荐和你买过或浏览过或搜索过或购物车中相似的物品两者各有优缺点UserCF:适用于 用户量<物品量 如新闻资讯数量往往远大于用户数量ItemCF:适用于 用户量>物品量ALS:兼具两者Use...原创 2019-04-21 19:13:28 · 503 阅读 · 0 评论 -
Exception in thread "main" java.lang.NoSuchMethodError: scala.Predef$.refArrayOps([Ljava/lang/Object
scala 版本(本机的) 与 spark版本不匹配 下载指定版本的 与spark想对应的 将Scala的框架添加到这个项目中,方法是在左侧栏中的项目名称上右键菜单中点击Add Framework Support…,然后在打开的对话框左侧边栏中,勾选Scala前面的复选框,然后点击确定即可(前提是上文中所述步骤都已正确走通,否则你很有可能看不到Scala这个选项的); ...原创 2018-11-30 19:49:19 · 808 阅读 · 0 评论 -
maven jar混乱解决办法 附自己的spark pom
1 首先根据服务器版本,来选择自己工程代码的相应maven版本,或者没有服务器根据自己电脑的版本来选择2 去maven仓库查找相对应的,pom粘贴 <dependencies> 比如说 服务器上为 spark 为 2.3.3 maven支持 scala 为 2.11 那么自己电脑上就得配置 scala 版本为 2.11 否则报错 spark version ...原创 2018-11-30 19:54:59 · 348 阅读 · 0 评论 -
spark2.0 读取mysql 并加载到hive分区表 cdh
首先建立一个maven 项目 然后 add framework scala 添加scala支持将hive的相关配置放到项目的resources 目录下,core-site.xml hdfs-site.xml hive-site.xml如果是cdh的话,配置会有很多,可以自己简化一下,只保留 核心配置,比如说 namenode地址有的配置端口为8020 有的为9000 注意下端口,当初一...原创 2018-12-07 20:21:21 · 905 阅读 · 0 评论 -
spark的一些学习
spark的算子分为两类:Transformation ActionTransformation 延迟执行,当计算任务触发Action时才会真正开始计算checkpoint 检查点 sc.setcheckPoint("hdfs dir")rdd.checkpoint checkpoint 也是transformation 遇到action会执行分两步 ,第一执行计算并将结果展...原创 2019-01-15 19:10:32 · 324 阅读 · 0 评论 -
sparkStreaming写入到mysql中
dstream.foreachRDD { rdd => rdd.foreachPartition { partitionOfRecords => val connection = createNewConnection() partitionOfRecords.foreach(record => connection.send(record)) co...原创 2019-01-26 21:23:48 · 1044 阅读 · 1 评论 -
spark学习2
数据通过解析后被存放成case class类型,如果想要提取处理,就需要将数据转换成df toDF()而一旦转换成DF 对应的表头字段和case class中的相对应,df的一些有趣操作,ratingsData.toDF().filter($"rating" > 4).select("product").rdd.map((_, 1)).reduceByKey(_ + _...原创 2019-03-07 22:43:32 · 203 阅读 · 0 评论 -
spark 学习3
spark2.0 入口改为 sparkSession val spark=SparkSession.builder().appNmae().master().getOrCreate()val context=spark.SparkCOntextstruct streaming 是spark 2.3新引入的一个概念用来对标flink,看了两天flink,感觉没有saprk的api用这...原创 2019-03-23 17:20:19 · 706 阅读 · 0 评论 -
hive 使用 spark sql
前言:hive利用mr操作实在是太慢了,等的都烦了 so 利用spark来作为计算引擎1 在终端环境下 cp hive-site.xml hdfs-site.xml core-site.xml $SPARK_HOME/confcp mysql-connector.jar $SPARK_HOME/jarscp mysql-connector.jar $HIVE_HOME/lib/...原创 2019-04-02 22:50:05 · 299 阅读 · 0 评论 -
spark开发环境搭建(基于idea 和maven) 以及 maven打包jar包的两种方式 转
spark开发环境搭建(基于idea 和maven)转载文章出自:http://blog.csdn.net/u012373815/article/details/53266301使用idea构建maven 管理的spark项目 ,默认已经装好了idea 和Scala那么使用idea 新建maven 管理的spark 项目有以下几步:scala插件的安装 全局JDK和Libra...原创 2018-11-30 19:34:20 · 6432 阅读 · 0 评论