![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
算法
文章平均质量分 73
unity_kw_do
这个作者很懒,什么都没留下…
展开
-
Spark特征提取---TF-IDF
词频(Term Frequency,缩写为TF)在一篇文档中出现次数最多的词是----"的"、"是"、"在"----这一类最常用的词。它们叫做"停用词"(stop words),表示对找到结果毫无帮助、必须过滤掉的词。还有长度小于2大于10的,数字也过滤掉,根据词性过滤,留下有实际意义的词。假设我们把它们都过滤掉了,只考虑剩下的有实际意义的词。这样又会遇到了另一个问题,我们可能原创 2017-05-11 16:37:18 · 1132 阅读 · 0 评论 -
逻辑回归(Logistic)
一、什么是逻辑回归?Logistic回归与多重线性回归实际上有很多相同之处,最大的区别就在于它们的因变量不同,其他的基本都差不多。正是因为如此,这两种回归可以归于同一个家族,即广义线性模型(generalizedlinear model)。这一家族中的模型形式基本上都差不多,不同的就是因变量不同。如果是连续的,就是多重线性回归;如果是二项分布,就是Logistic回归;如果是Poi原创 2017-05-16 10:15:57 · 697 阅读 · 0 评论 -
从新闻数据组中提取TF-IDF特征
为了练习特征提取,我将使用一个非常有名的数据集,叫做20 Newsgroups;这个数据集一般用来文本分类。1.分析数据内容查看目录结构和数据结构val sc = new SparkContext("local[2]","TF-IDF") val path = "data/20news-bydate-train/*" val rdd = sc.wholeText原创 2017-05-16 16:20:54 · 923 阅读 · 0 评论 -
逻辑回归算法(二)-----SparkMLlib实现
1.1 逻辑回归算法1.1.1 基础理论logistic回归本质上是线性回归,只是在特征到结果的映射中加入了一层函数映射,即先把特征线性求和,然后使用函数g(z)将最为假设函数来预测。g(z)可以将连续值映射到0和1上。它与线性回归的不同点在于:为了将线性回归输出的很大范围的数,例如从负无穷到正无穷,压缩到0和1之间,这样的输出值表达为“可能性”才能说服广大民众。当然了,把大值压缩原创 2017-05-16 17:03:04 · 1137 阅读 · 1 评论 -
用于数据挖掘的分类算法有哪些,各有何优劣?
作者:Jason Gu链接:https://www.zhihu.com/question/24169940/answer/26952728来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。训练集有多大?如果你的训练集很小,高偏差/低方差的分类器(如朴素贝叶斯)比低偏差/高方差的分类器(如K近邻或Logistic回归)更有优势,因为后者容易过拟转载 2017-05-16 17:03:54 · 401 阅读 · 0 评论 -
监督学习(supervised learning)和无监督学习(unsupervised learning)
机器学习的常用方法,主要分为有监督学习(supervised learning)和无监督学习(unsupervised learning)。监督学习,就是人们常说的分类,通过已有的训练样本(即已知数据以及其对应的输出)去训练得到一个最优模型(这个模型属于某个函数的集合,最优则表示在某个评价准则下是最佳的),再利用这个模型将所有的输入映射为相应的输出,对输出进行简单的判断从而实现分类的目的,也就具有转载 2017-05-17 10:56:18 · 1572 阅读 · 0 评论 -
Spark-mllib特征提取算法
Spark MLlib 提供三种文本特征提取方法,分别为TF-IDF、Word2Vec以及CountVectorizer,其原理与调用代码整理如下:TF-IDF算法介绍:词频-逆向文件频率(TF-IDF)是一种在文本挖掘中广泛使用的特征向量化方法,它可以体现一个文档中词语在语料库中的重要程度。词语由t表示,文档由d表示,语料库由D表示。词频TF(t,,d)是词语t在文档原创 2017-05-17 12:05:45 · 719 阅读 · 0 评论 -
Spark-mllib特征转换算法
Tokenization(分词器)算法介绍:Tokenization将文本划分为独立个体(通常为单词)。RegexTokenizer基于正则表达式提供更多的划分选项。默认情况下,参数“pattern”为划分文本的分隔符。或者可以指定参数“gaps”来指明正则“patten”表示“tokens”而不是分隔符,这样来为分词结果找到所有可能匹配的情况。调用:Scala:i原创 2017-05-17 14:37:05 · 1442 阅读 · 0 评论 -
Spark-mllib特征选择算法
VectorSlicer算法介绍:VectorSlicer是一个转换器输入特征向量,输出原始特征向量子集。VectorSlicer接收带有特定索引的向量列,通过对这些索引的值进行筛选得到新的向量集。可接受如下两种索引1.整数索引,setIndices()。2.字符串索引代表向量中特征的名字,此类要求向量列有AttributeGroup,因为该工具根据Attribute来匹配名字原创 2017-05-17 14:42:26 · 1282 阅读 · 0 评论