算法
liuwei063608
这个作者很懒,什么都没留下…
展开
-
Ftest(F检验)
1. Ftest(F检验)1.1 概念F检验又叫方差齐性检验。在两样本t检验中要用到F检验。从两研究总体中随机抽取样本,要对这两个样本进行比较的时候,首先要判断两总体方差是否相同,即方差齐性。若两总体方差相等,则直接用t检验,若不等,可采用t'检验或变量变换或秩和检验等方法。其中要判断两总体方差是否相等,就可以用F检验。1.2 用处检验两组数据是否存在显著性差异1.3原创 2017-05-27 15:29:30 · 20482 阅读 · 0 评论 -
相似度计算
1. 相似度计算1.1 概念从多个维度分析两组数据的相似度,比如大的文本使用word2vec转成向量,类别根据最大的类别数量N拆成n维0或1表示的vector,数值类型归一化之后表示一个维度,然后根据cos、L1、L2等方式计算相似度1.2 用处可以用于推荐系统、协同过滤等算法1.3 细节注意double值的精度处理1.4 公式1.4.1 COSINE将向量根据原创 2017-10-30 17:41:17 · 1511 阅读 · 0 评论 -
文本词频Countvectorizer
1. 文本词频Countvectorizer1.1 概念CountVectorizer旨在通过计数来将一个文档转换为向量。当不存在先验字典时,Countvectorizer作为Estimator提取词汇进行训练,并生成一个CountVectorizerModel用于存储相应的词汇向量空间。该模型产生文档关于词语的稀疏表示,其表示可以传递给其他算法,例如LDA。在CountVectori原创 2017-07-12 14:45:24 · 3092 阅读 · 0 评论 -
Ansj分词
/** * Created by liuwei on 2017/8/24. */object AnsjTest { def main(args: Array[String]): Unit = { val string = "test环境服务器启动方式更新为supervisor启动" val t = tfidfAnsj(string, List.empty[S原创 2017-09-25 11:10:11 · 285 阅读 · 0 评论 -
聚类LDA
1. 聚类LDA1.1 概念LDA(Latent Dirichlet Allocation)是一种文档主题生成模型,也称为一个三层贝叶斯概率模型,包含词、主题和文档三层结构。所谓生成模型,就是说,我们认为一篇文章的每个词都是通过“以一定概率选择了某个主题,并从这个主题中以一定概率选择某个词语”这样一个过程得到。文档到主题服从多项式分布,主题到词服从多项式分布。[1] LDA是一种非监督原创 2017-09-12 16:08:41 · 1222 阅读 · 0 评论 -
NLP分词
NLP分词jar包很大,不建议使用maven下载,几百M,直接官网下载package testimport edu.stanford.nlp.ling.{CoreAnnotations, CoreLabel}import edu.stanford.nlp.pipeline.{Annotation, StanfordCoreNLP}import org.apache.commons.la原创 2017-09-28 12:11:27 · 469 阅读 · 0 评论 -
SVD降维
1. SVD降维1.1 概念奇异值分解(Singular value decomposition)现实世界里,为了实现类似特征值分解的计算,我们使用奇异值分解。奇异值分解适用于任何矩阵,如下所示,其中A是一个m*n的矩阵:A=Um∗mΣm∗nVTn∗nA=Um∗mΣm∗nVn∗nT其中U 是一个m*m的正交矩阵,其向量被称为左奇异向量V 也是一个n*n的正交矩阵,其向量原创 2017-08-21 17:23:49 · 1463 阅读 · 0 评论 -
文本词频Word2Vec
1. 文本词频Word2Vec1.1 概念word2vec就是用一个一层的神经网络(CBOW的本质)把one-hot形式的词向量映射到分布式形式的词向量用来推断总体参数的统计量称为估计量(estimator)当经测定的具体数值代入估计量时,它就是一个具体的数值,称为估计值(estimate) 。an estimator is rule which before weobserv原创 2017-07-10 11:18:41 · 1352 阅读 · 0 评论 -
PCA降维
1. PCA降维1.1 概念主成分分析( PrincipalComponent Analysis, PCA)或者主元分析。是一种掌握事物主要矛盾的统计分析方法,它可以从多元事物中解析出主要影响因素,揭示事物的本质,简化复杂的问题。PCA类训练一个模型,用PCA将向量投射到一个低维度空间 1.2 用处数据降维,将复杂的维度简单化,减少运算量1.3 细节Vector原创 2017-07-20 19:05:45 · 497 阅读 · 0 评论 -
文本词频TF-IDF
1. 文本词频TF-IDF1.1 概念词频-逆向文件频率(TF-IDF)是一种在文本挖掘中广泛使用的特征向量化方法,它可以体现一个文档中词语在语料库中的重要程度。词语由t表示,文档由d表示,语料库由D表示。词频TF(t,,d)是词语t在文档d中出现的次数。文件频率DF(t,D)是包含词语的文档的个数。如果我们只使用词频来衡量重要性,很容易过度强调在文档中经常出现而并没有包含太多与文档有原创 2017-07-14 13:55:20 · 705 阅读 · 0 评论 -
Chi-squared test(卡方检验/χ2检验)
1. Chi-squared test(卡方检验/χ2检验)1.1 概念χ2检验是对分类数据的频数进行分析的统计方法。(统计学第六版 中国人女大学出版社 P216)卡方检验是用途非常广的一种假设检验方法,它在分类资料统计推断中的应用,包括:两个率或两个构成比比较的卡方检验;多个率或多个构成比比较的卡方检验以及分类资料的相关分析等。1.2 用处卡方检验就是统计样本的实际观测值与理原创 2017-06-16 18:33:08 · 17676 阅读 · 0 评论 -
K-S正态检验
1. K-S正态检验1.1 概念K-S检验不仅能够检验单个总体是否服从某一理论分布,还能够检验两总体分布是否存在显著差异。其原假设是:两组独立样本来自的两总体的分布无显著差异。这里是以变量值的秩作为分析对象,而非变量值本身。 1.2 用处K-S检验通过对两个分布之间的差异的分析,判断样本的观察结果是否来自制定分布的总体1.3 细节观测数组不一定符合正态分布,需要原创 2017-06-16 18:34:58 · 9477 阅读 · 0 评论 -
Ttest(T检验)
1. Ttest(T检验)1.1 概念t检验是用t分布理论来推论差异发生的概率,从而比较两个平均数的差异是否显著。它与f检验、卡方检验并列。t检验的来历当总体呈正态分布,如果总体标准差未知,而且样本容量检验是用 分布理论来推论差异发生的概率,从而比较两个平均数的差异是否显著。 检验分为单总体检验和双总体 检验。1.单总体t检验单总体 检验是检验一个样本平均数与一已知的总原创 2017-05-27 15:31:08 · 15111 阅读 · 0 评论 -
二元分类评估结果优化
需求描述对于二元分类算法,在训练完模型后,用testData对模型进行评估,可以得到*(score,label)的数据。在存在shreshold的情况下,我们认为score>=shreshold的情况下,该数据为positive*,相反则为negative。进一步得到*(prediction,label)的数据(prediction就是预测的label值),比较prediction和l转载 2018-04-04 15:06:38 · 469 阅读 · 0 评论