spark
浮生物语QAQ
这个作者很懒,什么都没留下…
展开
-
Spark源码学习-windows使用idea搭建源码阅读集群
Windows下spark源码环境搭建原创 2017-11-30 14:19:41 · 388 阅读 · 0 评论 -
Spark源码分析之Spark执行环境SparkEnv
SparkEnv是创建SparkContext中的第一步,也是很重要的一环,它Spark 的执行环境对象,其中包括众多与Executor 执行相关的对象。由于在local 模式下Driver 会创建Executor,cluster 部署模式或者Standalone 部署模式下Worker 另起的CoarseGrainedExecutorBackend 进程中也会创建Executor,所以SparkE原创 2017-12-28 18:11:43 · 477 阅读 · 0 评论 -
Spark ML 之 特征选择,提取,转换工具
数据挖掘算法中有很大一部分都是数据预处理工作,毕竟现有模型都是比较成熟的,只需要学会调用就好,如何把原始数据转化为算法模型适用的数据结构也是很重要的一步。spark ML中提供了对特征的提取(Extracting),转换(transforming)和选择(selecting)工具。特征提取:从原始数据中提取特征特征转换:特征的扩展,特征的转化,特征的修改特征选择:从大规模特征集中选取一个子集原创 2017-12-19 11:13:22 · 3217 阅读 · 0 评论 -
cloudera manager 升级到jdk1.8
CDH5.11自带的是spark1.6,在把spark升级到2.2之后,添加服务,执行服务 Spark 2 上的命令 部署客户端配置阶段报错。 查看日志: JAVA_HOME=/usr/java/jdk1.7.0_67-cloudera/ Using -XX:+HeapDumpOnOutOfMemoryError -XX:HeapDumpPath=/tmp/spark2_on_yarn_原创 2017-12-26 16:13:01 · 5295 阅读 · 1 评论 -
spark 通信机制
bute对于Network通信,不管传输的是序列化后的对象还是文件,在网络上表现的都是字节流。在传统IO中,字节流表示为Stream;在NIO中,字节流表示为ByteBuffer;在Netty中字节流表示为ByteBuff或FileRegion;在Spark中,针对Byte也做了一层包装,支持对Byte和文件流进行处理,即ManagedBuffer;ManagedBuffer是一个接口,包含了三个函转载 2017-12-06 17:23:23 · 2772 阅读 · 0 评论 -
Spark ML 之 RDD to DataFrame (python版)
由于工作需要,最近开始用Python写Spark ML程序,基础知识不过关,导致一些简单的问题困扰了好久,这里记录下来,算是一个小的总结,说不定大家也会遇到同样的问题呢,顺便加一句,官方文档才是牛逼的,虽然我英语很菜。先说下我的需求,使用Iris数据集来训练kmeans模型,Iris是UCI上面一个很著名的数据集,通常用来做聚类(分类)等测试。Iris.txt: http://archive.ics原创 2017-12-15 11:21:28 · 4055 阅读 · 0 评论 -
pyspark 遇到的问题
最近弄pyspark,想通过spark操作hdfs,遇到一些问题,记录下来!1。 刚看到这个问题的时候很懵逼,果断去查看了集群的防火墙,端口9000的状态,集群是否允许远程登录等问题,发现还是不行,重新换了一个自己本地配置的原生hadoop,居然可以正常连接,这样看来,问题出在CDH和Apache hadoop 的差异上了。 原因:CDH默认的hdfs端口是8020,而Apache hadoop的原创 2017-12-08 10:41:56 · 512 阅读 · 0 评论 -
Spark ML简介之Pipeline,DataFrame,Estimator,Transformer
MLlib是Spark的机器学习(Machine Learning)库,旨在简化机器学习的工程实践工作,并方便扩展到更大规模。MLlib由一些通用的学习算法和工具组成,包括分类、回归、聚类、协同过滤、降维等,同时还包括底层的优化原语和高层的管道API。具体来说,其主要包括以下几方面的内容:学习算法:如分类、回归、聚类和协同过滤等特征化工具:特征提取、转化、降维,和选择工具管道(Pipeline原创 2017-12-15 10:04:32 · 3696 阅读 · 0 评论 -
spark mllib 之 Pipeline工作流构建
Spark 机器学习库从 1.2 版本以后被分为两个包spark.mllib 包含基于RDD的原始算法API。Spark MLlib 历史比较长,在1.0 以前的版本即已经包含了,提供的算法实现都是基于原始的 RDD。spark.ml 则提供了基于DataFrames 高层次的API,可以用来构建机器学习工作流(PipeLine)。ML Pipeline 弥补了原始 MLlib 库的不足,向用户原创 2017-12-12 17:45:33 · 702 阅读 · 0 评论 -
Spark源码学习- SparkContext
SparkContext是整个Spark的唯一入口原创 2017-11-30 17:30:01 · 288 阅读 · 0 评论 -
Spark源码分析之Rpc
RPC(Remote Procedure Call)即远程程序调用,它是分布式项目的基础环境,Spark RPC被deploy、scheduler、shuffle、storage等多个模块使用,是理解这些模块的前提。最初是基于akka的actor实现,在spark1.4标准了Rpc的相关接口,并在Spark 1.6+推出了以RPCEnv、RPCEndpoint、RPCEndpointRef为核心的新原创 2017-12-29 15:56:08 · 327 阅读 · 0 评论