spark_风雪夜归子的博客-CSDN博客

spark

关注

关注数：文章数：7 文章阅读量：47993 文章收藏量：13

作者: 风雪夜归子

风雪夜归子（Allen），机器学习算法攻城狮，喜爱钻研Meachine Learning的黑科技，对Deep Learning和Artificial Intelligence充满兴趣，经常关注Kaggle数据挖掘竞赛平台，对数据、Machine Learning和Artificial Intelligence有兴趣的童鞋可以一起探讨哦，个人CSDN博客：http://blog.csdn.net/u013719780?viewmode=contents

展开

spark学习笔记总结-spark入门资料精化

Spark学习笔记Spark简介spark 可以很容易和yarn结合，直接调用HDFS、Hbase上面的数据，和hadoop结合。配置很容易。spark发展迅猛，框架比hadoop更加灵活实用。减少了延时处理，提高性能效率实用灵活性。也可以与hadoop切实相互结合。spark核心部分分为RDD。Spark SQL、Spark Streaming、MLlib、GraphX、Spark R等核心组件解

原创 2015-09-14 22:20:05 · 2406 阅读 · 0 评论
Spark编程指南笔记

本文是参考Spark官方编程指南（Spark 版本为1.2）整理出来的学习笔记，主要是用于加深对 Spark 的理解，并记录一些知识点。1. 一些概念每一个 Spark 的应用，都是由一个驱动程序构成，它运行用户的 main 函数，在一个集群上执行各种各样的并行操作。Spark 提出的最主要抽象概念是弹性分布式数据集，它是一个有容错机制（划分到集群的各个节点上）并可以被并行操作的

转载 2015-11-06 15:28:16 · 1161 阅读 · 0 评论
用spark建立一个单词统计的应用

本文我们将建立一个简单的单词统计应用创建rddIn [1]:wordsList = ['cat', 'elephant', 'rat', 'rat', 'cat']wordsRDD = sc.parallelize(wordsList, 4)# Print out the type of wordsRDDprint ty

原创 2016-08-29 18:13:55 · 8413 阅读 · 0 评论
spark Tokenization的用法

Tokenization是将文本(例如句子)分割成单词，RegexTokenizer是基于正则表达式进行单词分割，默认打分割方式是'\s+'，具体应用如下：from pyspark.ml.feature import Tokenizer, RegexTokenizersentenceDataFrame = sqlContext

原创 2016-09-10 12:43:44 · 8084 阅读 · 0 评论
Spark CountVectorizer处理文本特征

CountVectorizer算法是将文本向量转换成稀疏表示打数值向量（字符频率向量）。该数值向量可以传递给其他算法，譬如LDA 。在fitting过程中，CountVectorizer将会把频率高的单词排在前面。可选参数minDF表示文本中必须出现的次数。下面看一个具体的例子。from pyspark.ml.feature import CountVectorizer

原创 2016-09-10 11:41:52 · 12584 阅读 · 0 评论
使用spark建立逻辑回归(Logistic)模型帮Helen找男朋友

假设海伦一直使用在线约会网站寻找适合自己的约会对象。尽管约会网站会推荐不同的人选，但她没有从中找到喜欢的人。经过一番总结，她发现曾交往过三种类型的人： □ 不喜欢的人 □ 魅力一般的人 □ 极具魅力的人尽管发现了上述规律，但海伦依然无法将约会网站推荐的匹配对象归人恰当的分类。她觉得可以在周一到周五约会那些魅力一般的人，而周末则更喜欢与那些极具魅力的人为伴。海伦希望我们的分类算法可

原创 2016-08-22 16:37:41 · 9098 阅读 · 0 评论
使用spark的TF-IDF算法计算单词的重要性

使用spark的TF-IDF算法计算单词的重要性本文简单学习一下spark的TF-IDF算法的使用要计算每个单词的重要性，首先需要将单词分割，然后转换成数值型特征In [1]:from pyspark.ml.feature import HashingTF, IDF, TokenizersentenceData = s

原创 2016-10-18 14:16:58 · 6249 阅读 · 0 评论

spark

作者: 风雪夜归子

spark学习笔记总结-spark入门资料精化

Spark编程指南笔记

用spark建立一个单词统计的应用

spark Tokenization的用法

Spark CountVectorizer处理文本特征

使用spark建立逻辑回归(Logistic)模型帮Helen找男朋友

使用spark的TF-IDF算法计算单词的重要性