spark
文章平均质量分 94
jslijb
这个作者很懒,什么都没留下…
展开
-
spark scala RDD
1、创建RDD从外部数据源创建从父RDD创建使用makeRDD() 和 parallelize() 这两个函数创建1.1 从外部数据源进行创建(HDFS,HBASE等) Cassandra、Amazon S3,spark 支持的文本文件、SequeceFile和任何hadoop InputFormat格式的文件# textFile(hdfs_file_path)val in...原创 2018-03-22 15:01:55 · 768 阅读 · 0 评论 -
在Windows10 上超详细搭建spark 开发环境
http://note.youdao.com/noteshare?id=3287f13ad5168e6d641fa260518dbeed&sub=1F84992EF3584CF9A821D49FCDFCFD8B这个是我的有道云比较分享出来的主要内容简介scala 安装java 8 安装hadoop 安装spark 安装idea 中使用java和scala 进行 spa...原创 2018-04-19 16:34:25 · 4149 阅读 · 3 评论 -
spark 2.2.1 job Scheduling
翻译官网的,翻译水平有限,大致的说明白了spark 2.2.1 job Schedulingspark 2.2.1 job Scheduling 官方文档原创 2018-05-23 15:31:10 · 199 阅读 · 0 评论 -
spark mllib 之了解机器学习
了解机器学习原创 2018-05-24 10:50:10 · 645 阅读 · 0 评论 -
spark MLlib 之构建机器学习系统
构建 spark 机器学习系统spark 机器学习系统架构spark 和 hadoop 集群的安装spark-shell加载数据探索数据数据统计信息数据质量分析数据特征分析数据可视化数据预处理数据清理数据变换数据集成数据归约构建模型模型评估方法组装模型选择或调优交叉验证(CrossValidator):训练验证切分 (TrainValidatio...原创 2018-06-22 17:19:26 · 14722 阅读 · 1 评论