spark
蜡笔小新hyp
这个作者很懒,什么都没留下…
展开
-
RDD学习
基本概念:RDD( Resilient Distributed Datasets )弹性分布式数据集 - 在Spark中,对数据的操作不外乎创建RDD、转化已有RDD以及调用RDD操作求值 - RDD将操作分为两类:transformation与action。 - 无论执行了多少次transformation操作,RDD都不会真正执行运算,只有当action操作被执行时,运算才会触发。创建RD原创 2017-04-07 17:23:52 · 439 阅读 · 0 评论 -
Spark快速大数据分析
学习时间:2017.10.10-2017.10.17 学习内容:第一~八章 学习总结:原创 2017-10-20 14:57:54 · 349 阅读 · 0 评论 -
Spark join与cogroup算子
参考链接 join算子 http://blog.csdn.net/zhousishuo/article/details/73292428 join的优化 https://zhuanlan.zhihu.com/p/24331170join与cogroup算子 http://blog.csdn.net/wo334499/article/details/51689563遗留问题,两个rdd如原创 2017-09-11 11:06:13 · 747 阅读 · 0 评论 -
scala正则表达式
最近在做人物画像,要对url进行分析、抽取关键值,所以常常写好多正则表达式。记录一下 1. 几种常见的正则符号及区别 - [\w]与[\W] - [\s]与[\S] - [\d]与[\D] - 详情见scala教程http://www.runoob.com/scala/scala-regular-expressions.html 2. 几种常见的量词 - *:表示0次或多次 - +:原创 2017-08-18 17:41:58 · 339 阅读 · 0 评论 -
从本地读数据并转为Map格式
从本地路径下读取目录下所有k-v格式字典,返回数据格式为Array[Map[String, String]], Map[String, Int] 实现代码:/*** 获取本地指定目录下所有字典数据* @date Aug 4, 2017* @author hyp* @param dicDirPath* @return*/def dicToMapXcarLocal(dicDirPath:原创 2017-08-11 16:15:29 · 473 阅读 · 0 评论 -
从hdfs读数据并转为Map格式
读取目录下所有k-v格式字典,返回数据格式为Array[Map[String, String]], Map[String, Int] 实现代码:/*** 获取hdfs指定目录下所有字典数据* @author hyp* @param spark* @param dicPath hdfs字典目录路径* @return (Array[Map[String, String]], Map[Stri原创 2017-08-11 15:48:01 · 454 阅读 · 0 评论 -
ClosedChannelException
遗留问题:在secureCRT上跑spark代码时偶尔会报错:ClosedChannelException 错误信息:17/05/26 17:34:09 INFO YarnClientSchedulerBackend: Stopped17/05/26 17:34:09 INFO MapOutputTrackerMasterEndpoint: MapOutputTrackerMasterEndpo原创 2017-06-02 16:40:36 · 2573 阅读 · 1 评论 -
ERROR LiveListenerBus: Listener EventLoggingListener threw an exception
在集群上跑任务的时候,有时会出现这个 ERROR LiveListenerBus: Listener EventLoggingListener threw an exception java.util.ConcurrentModificationException错误,查看了资料发现,这是spark2.0.1的一个bug,建议升级一下spark2.0.2/2.1.0 就可以了。我的spark版本是原创 2017-08-11 13:31:21 · 5053 阅读 · 1 评论 -
RejectedExecutionException
遗留问题:在SecureCRT中跑spark项目有时会出现异常:RejectedExecutionException,但是此昂木还是跑成功了,不知道是为什么? 异常信息:17/05/27 10:09:04 INFO YarnClientSchedulerBackend: Stopped17/05/27 10:09:04 INFO MapOutputTrackerMasterEndpoint: M原创 2017-06-02 16:37:57 · 4235 阅读 · 5 评论 -
Spark开发笔记(二)
jdk,jre,jvm的区别 参考http://java-mzd.iteye.com/blog/838514做Java开发的,就要做Java环境的搭建,而Java环境根据需要又分为:开发环境和运行环境。开发环境需要安装JDK, 运行环境需要安装JRE(如果安装了JDK,则无需再安装JRE)刷新与clear build的区别 在scalaIDE中编写代码时找不到jar包,找不到类,重新clea原创 2017-05-19 15:13:10 · 333 阅读 · 0 评论 -
项目积累
项目名称:convertpytohive.scala功能:将已经打过标签的数据存储到一个hive表中,partition字段值为category_param,category值为文件中类别值,param为要传进去的值。开发中遇到问题:在rdd中不能给外部变量赋值var contentstr="default"// 1.spark从hdfs中读取多个文件val spark = sparkConf原创 2017-04-25 17:47:12 · 260 阅读 · 0 评论 -
Spark开发笔记(2017-05-04)
在一个rdd操作中是不能同时操作另一个rdd的。你是想 valuesRdd 里面每个值 对于dicRdd 进行过滤,但是在分布式系统里面,每个RDD数据集都切割分发到各个分布式机器虚拟机jvm里,每一个jvm里的数据集不一样,所以,从jvm的角度来看,它是没办法在一块数据集里面操作另外一个整体的RDDvaluesRdd.foreach { i =>val samevalueKeys = dicRd原创 2017-05-05 16:51:35 · 625 阅读 · 0 评论 -
Spark笔记
spark程序的工作流程 从外部数据创建出输入RDD使用诸如filter()这样的转化操作对RDD进行转化,已定义新的RDD告诉Spark对需要被重用的中间结果RDD执行peisist()操作使用行动操作(例如count()和first()等)来触发一次并行操作,Spark会对计算进行优化后再执行向spark传递函数传递的函数及其引用的数据需要时可序列化的(实现了java的Serializ原创 2017-05-05 16:21:44 · 412 阅读 · 0 评论 -
Spark开发问题记录
环境:scala ide开发Spark 问题: 1. xx build path is cross-compiled with an incompatible version of Scala (2.10.0). In case this report is mistaken, this check can be disabled in the compiler preference page原创 2017-04-01 15:59:12 · 1320 阅读 · 0 评论 -
scala处理json文件
读取json数据处理并保存输入文件数据为json格式,csid.txt{"bid": "1","品牌":"奥迪","厂商":"一汽-大众奥迪","csid":"5"}{"bid": "1","品牌":"奥迪","厂商":"奥迪(进口)","csid":"63"}{"bid": "1","品牌":"奥迪","厂商":"奥迪RS","csid":"276"}{"bid": "56","品原创 2017-08-11 14:48:34 · 6983 阅读 · 0 评论