spark
风雪夜归子
风雪夜归子(Allen),机器学习算法攻城狮,喜爱钻研Meachine Learning的黑科技,对Deep Learning和Artificial Intelligence充满兴趣,经常关注Kaggle数据挖掘竞赛平台,对数据、Machine Learning和Artificial Intelligence有兴趣的童鞋可以一起探讨哦,个人CSDN博客:http://blog.csdn.net/u013719780?viewmode=contents
展开
-
spark学习笔记总结-spark入门资料精化
Spark学习笔记Spark简介spark 可以很容易和yarn结合,直接调用HDFS、Hbase上面的数据,和hadoop结合。配置很容易。spark发展迅猛,框架比hadoop更加灵活实用。减少了延时处理,提高性能效率实用灵活性。也可以与hadoop切实相互结合。spark核心部分分为RDD。Spark SQL、Spark Streaming、MLlib、GraphX、Spark R等核心组件解原创 2015-09-14 22:20:05 · 2406 阅读 · 0 评论 -
Spark编程指南笔记
本文是参考Spark官方编程指南(Spark 版本为1.2)整理出来的学习笔记,主要是用于加深对 Spark 的理解,并记录一些知识点。1. 一些概念每一个 Spark 的应用,都是由一个驱动程序构成,它运行用户的 main 函数,在一个集群上执行各种各样的并行操作。Spark 提出的最主要抽象概念是 弹性分布式数据集,它是一个有容错机制(划分到集群的各个节点上)并可以被并行操作的转载 2015-11-06 15:28:16 · 1161 阅读 · 0 评论 -
用spark建立一个单词统计的应用
本文我们将建立一个简单的单词统计应用创建rddIn [1]:wordsList = ['cat', 'elephant', 'rat', 'rat', 'cat']wordsRDD = sc.parallelize(wordsList, 4)# Print out the type of wordsRDDprint ty原创 2016-08-29 18:13:55 · 8413 阅读 · 0 评论 -
spark Tokenization的用法
Tokenization是将文本(例如句子)分割成单词,RegexTokenizer是基于正则表达式进行单词分割,默认打分割方式是'\s+',具体应用如下:from pyspark.ml.feature import Tokenizer, RegexTokenizersentenceDataFrame = sqlContext原创 2016-09-10 12:43:44 · 8084 阅读 · 0 评论 -
Spark CountVectorizer处理文本特征
CountVectorizer算法是将文本向量转换成稀疏表示打数值向量(字符频率向量)。该数值向量可以传递给其他算法,譬如LDA 。在fitting过程中,CountVectorizer将会把频率高的单词排在前面。可选参数minDF表示文本中必须出现的次数。下面看一个具体的例子。from pyspark.ml.feature import CountVectorizer原创 2016-09-10 11:41:52 · 12584 阅读 · 0 评论 -
使用spark建立逻辑回归(Logistic)模型帮Helen找男朋友
假设海伦一直使用在线约会网站寻找适合自己的约会对象。尽管约会网站会推荐不同的人选,但她没有从中找到喜欢的人。经过一番总结,她发现曾交往过三种类型的人: □ 不喜欢的人 □ 魅力一般的人 □ 极具魅力的人 尽管发现了上述规律,但海伦依然无法将约会网站推荐的匹配对象归人恰当的分类。她觉得可以在周一到周五约会那些魅力一般的人,而周末则更喜欢与那些极具魅力的人为伴。海伦希望我们的分类算法可原创 2016-08-22 16:37:41 · 9098 阅读 · 0 评论 -
使用spark的TF-IDF算法计算单词的重要性
使用spark的TF-IDF算法计算单词的重要性本文简单学习一下spark的TF-IDF算法的使用要计算每个单词的重要性,首先需要将单词分割,然后转换成数值型特征In [1]:from pyspark.ml.feature import HashingTF, IDF, TokenizersentenceData = s原创 2016-10-18 14:16:58 · 6249 阅读 · 0 评论