Spark
To_be_brave1
这个作者很懒,什么都没留下…
展开
-
spark零基础学习路线指导
安转:http://www.it610.com/article/5001700.htmspark零基础学习路线指导https://blog.csdn.net/SCGH_Fx/article/details/74316064问题导读1.你认为spark该如何入门?2.你认为spark入门编程需要哪些步骤?3.本文介绍了spark哪些编程知识? spark学习一般都具有hadoop基础,所以学习起来更...转载 2018-06-13 11:12:41 · 222 阅读 · 0 评论 -
Spark LDA 主题预测
本文主要对使用Spark MLlib LDA进行主题预测时遇到的工程问题做一总结,列出其中的一些小坑,或可供读者借鉴。关于LDA模型训练可以参考:Spark LDA 主题抽取开发环境:spark-1.5.2,hadoop-2.6.0,spark-1.5.2要求jdk7+。语料有大概70万篇博客,十亿+词汇量,词典大概有五万左右的词。模型准备利用spark mllib LDA进行主题预测需要训练好的...转载 2018-07-15 12:18:39 · 832 阅读 · 0 评论 -
Spark LDA 主题抽取
转https://blog.csdn.net/poised/article/details/50382107本文主要对使用Spark MLlib LDA进行主题抽取时遇到的工程问题做一总结,列出其中的一些小坑,或可供读者借鉴。关于LDA的具体理论等可以自行google。主题预测请参考:Spark LDA 主题预测开发环境:spark-1.5.2,hadoop-2.6.0,spark-1.5.2要求...转载 2018-07-15 12:17:56 · 564 阅读 · 0 评论 -
Spark RDD操作
Transformations(转换)Transformation说明map(func)根据传入的函数处理原有的RDD对象中每一个元素,每一个新元素处理完成后返回一个对象,这些新对象组装得到一个新的RDD,新的RDD和旧的RDD元素都是一一对应的filter(func)根据传入的函数来过滤RDD中每一个元素,通过过滤条件的的元素组成一个新的RDDflatMap(func)先进行map操作,然后把m...原创 2018-07-15 12:15:58 · 187 阅读 · 0 评论 -
Spark wordcount入门
今天简单讲一下在local模式下用eclipse开发一个简单的spark应用程序,并在本地运行测试。 1.下载最新版的scala for eclipse版本,选择windows 64位,下载网址:http://scala-ide.org/download/sdk.html 下载好后解压到D盘,打开并选择工作空间。 然后创建一个测试项目ScalaDev,右击项目选择Properties,在对话框中...转载 2018-07-12 16:40:15 · 2525 阅读 · 1 评论 -
Spark2.0机器学习系列之9: 聚类算法(LDA)
https://blog.csdn.net/qq_34531825/article/details/52608003在写这篇文章之前,先说一些题外话。 许多机器学习算法(如后面将要提到的LDA)涉及的数学知识太多,前前后后一大堆,理解起来不是那么容易。 面对复杂的机器学习模型,尤其是涉及大量数学知识的模型,我们往往要花费大量的时间和精力去推导数学算法(公式),如果过分沉湎于...转载 2018-07-06 10:16:44 · 907 阅读 · 0 评论 -
深入浅出Spark
原创 2018-07-04 17:07:38 · 266 阅读 · 0 评论 -
spark mllib 入门学习(一)--聚类算法
http://www.aboutyun.com/thread-22235-1-1.html1.概述首先,笔者要先申明,我也是初学机器学习领域的内容,虽然我是从事大数据平台开发的工作,但是工作中确实没有跟spark MLlib打过交道,所以文中如果有描述错误的地方,还请大家指正。机器学习对高数、python的基础都有一定的要求,但是入门我觉得最重要的是理论联系实际,了解机器学习基本概念,然后结合sp...转载 2018-07-03 18:09:29 · 653 阅读 · 0 评论 -
spark mllib 入门学习(二)--LDA文档主题模型
http://www.aboutyun.com/thread-22359-1-1.html问题导读:1.什么是LDA文档问题模型?2.LDA 建模算法是什么样的?3.spark MLlib中的LDA模型如何调优?4.运行LDA有哪些小技巧?上次我们简单介绍了聚类算法中的KMeans算法,并且介绍了一个简单的KMeans的例子,本次按照我的计划,我想分享的是聚类算法中的LDA文档主题模型,计划从下次...转载 2018-07-03 18:02:44 · 1035 阅读 · 0 评论 -
Spark LDA
https://blog.csdn.net/poised/article/details/50382107本文主要对使用Spark MLlib LDA进行主题抽取时遇到的工程问题做一总结,列出其中的一些小坑,或可供读者借鉴。关于LDA的具体理论等可以自行google。主题预测请参考:Spark LDA 主题预测开发环境:spark-1.5.2,hadoop-2.6.0,spark-1.5.2要求j...转载 2018-07-10 10:43:01 · 328 阅读 · 0 评论 -
spark简介
http://www.aboutyun.com/forum.php?mod=viewthread&tid=93891.大数据有哪四大特征?2.Spark和Hadoop有什么不同呢?3.Spark的适用哪些场景?4.RDD的生成有哪两种创建方式?5.Spark支持哪些语言开发?大数据平台软件需要同时支持海量数据存储和高速分析能力。大数据的四大特征——海量的数据规模(volume)、快速的数据...转载 2018-06-26 15:29:59 · 146 阅读 · 0 评论 -
Spark Streaming
概述Spark Streaming 是 Spark Core API 的扩展, 它支持弹性的, 高吞吐的, 容错的实时数据流的处理. 数据可以通过多种数据源获取, 例如 Kafka, Flume, Kinesis 以及 TCP sockets, 也可以通过例如 map, reduce, join, window 等的高级函数组成的复杂算法处理. 最终, 处理后的数据可以输出到文件系统, 数据库...转载 2018-09-04 13:00:16 · 320 阅读 · 0 评论 -
Spark MLlib LDA主题模型(1)
转http://blog.csdn.net/sunbow0/Spark MLlib LDA主题模型是Spark1.3开始加入的,具体介绍看以下文档:官方编程指南:http://spark.apache.org/docs/latest/mllib-clustering.html#latent-dirichlet-allocation-ldaSpark MLlib LDA 简介:http://blog...转载 2018-06-29 15:02:01 · 318 阅读 · 0 评论 -
Hadoop与Spark比较
转: https://www.cnblogs.com/charlesblc/p/6206198.htmlHadoop与Spark比较先看这篇文章:http://www.huochai.mobi/p/d/3967708/?share_tid=86bc0ba46c64&fmid=0 直接比较Hadoop和Spark有难度,因为它们处理的许多任务都一样,但是在一些方面又并不相互重叠。比如说,Sp...转载 2018-06-22 17:53:18 · 203 阅读 · 0 评论 -
hadoop与spark的区别
https://www.zhihu.com/question/26568496/answer/41608400原创 2019-06-04 15:17:45 · 110 阅读 · 0 评论