liuwei063608的专栏

刘伟的随笔

二元分类评估结果优化

需求描述 对于二元分类算法,在训练完模型后,用testData对模型进行评估,可以得到*(score,label)的数据。在存在shreshold的情况下,我们认为score>=shreshold的情况下,该数据为positive*,相反则为negative。进一步得到*(predict...

2018-04-04 15:06:38

阅读数:74

评论数:0

相似度计算

1. 相似度计算 1.1 概念 从多个维度分析两组数据的相似度,比如大的文本使用word2vec转成向量,类别根据最大的类别数量N拆成n维0或1表示的vector,数值类型归一化之后表示一个维度,然后根据cos、L1、L2等方式计算相似度 1.2 用处 可以用于推荐系统、协同过滤等算法 ...

2017-10-30 17:41:17

阅读数:228

评论数:0

NLP分词

NLP分词jar包很大,不建议使用maven下载,几百M,直接官网下载 package test import edu.stanford.nlp.ling.{CoreAnnotations, CoreLabel} import edu.stanford.nlp.pipeline.{Annotat...

2017-09-28 12:11:27

阅读数:233

评论数:0

Ansj分词

/** * Created by liuwei on 2017/8/24. */ object AnsjTest { def main(args: Array[String]): Unit = { val string = "test环境服务器启动方式更新为su...

2017-09-25 11:10:11

阅读数:150

评论数:0

聚类LDA

1. 聚类LDA 1.1 概念 LDA(Latent Dirichlet Allocation)是一种文档主题生成模型,也称为一个三层贝叶斯概率模型,包含词、主题和文档三层结构。所谓生成模型,就是说,我们认为一篇文章的每个词都是通过“以一定概率选择了某个主题,并从这个主题中以一定概率选择某个词语”...

2017-09-12 16:08:41

阅读数:279

评论数:0

SVD降维

1. SVD降维 1.1 概念 奇异值分解(Singular value decomposition) 现实世界里,为了实现类似特征值分解的计算,我们使用奇异值分解。奇异值分解适用于任何矩阵,如下所示,其中A是一个m*n的矩阵: A=Um∗mΣm∗nVTn∗nA=Um∗mΣm∗nVn∗nT...

2017-08-21 17:23:49

阅读数:485

评论数:0

PCA降维

1. PCA降维 1.1 概念 主成分分析( PrincipalComponent Analysis , PCA )或者主元分析。是一种掌握事物主要矛盾的统计分析方法,它可以从多元事物中解析出主要影响因素,揭示事物的本质,简化复杂的问题。PCA类训练一个模型,用PCA将向量投射到一个低维度...

2017-07-20 19:05:45

阅读数:278

评论数:0

文本词频TF-IDF

1. 文本词频TF-IDF 1.1 概念 词频-逆向文件频率(TF-IDF)是一种在文本挖掘中广泛使用的特征向量化方法,它可以体现一个文档中词语在语料库中的重要程度。 词语由t表示,文档由d表示,语料库由D表示。词频TF(t,,d)是词语t在文档d中出现的次数。文件频率DF(t,D)是包含词语的文...

2017-07-14 13:55:20

阅读数:190

评论数:0

文本词频Countvectorizer

1. 文本词频Countvectorizer 1.1 概念 CountVectorizer旨在通过计数来将一个文档转换为向量。当不存在先验字典时,Countvectorizer作为Estimator提取词汇进行训练,并生成一个CountVectorizerModel用于存储相应的词汇向量空间。该模...

2017-07-12 14:45:24

阅读数:1308

评论数:0

文本词频Word2Vec

1. 文本词频Word2Vec 1.1 概念 word2vec就是用一个一层的神经网络(CBOW的本质)把one-hot形式的词向量映射到分布式形式的词向量 用来推断总体参数的统计量称为估计量(estimator) 当经测定的具体数值代入估计量时,它就是一个具体的数值,称为估计值(esti...

2017-07-10 11:18:41

阅读数:517

评论数:0

K-S正态检验

1. K-S正态检验 1.1 概念 K-S检验不仅能够检验单个总体是否服从某一理论分布,还能够检验两总体分布是否存在显著差异。其原假设是:两组独立样本来自的两总体的分布无显著差异。 这里是以变量值的秩作为分析对象,而非变量值本身。   1.2 用处 K-S检验通过对两个分布之间的差异的分析,判断...

2017-06-16 18:34:58

阅读数:2491

评论数:0

Chi-squared test(卡方检验/χ2检验)

1. Chi-squared test(卡方检验/χ2检验) 1.1 概念 χ2检验是对分类数据的频数进行分析的统计方法。(统计学第六版 中国人女大学出版社 P216) 卡方检验是用途非常广的一种假设检验方法,它在分类资料统计推断中的应用,包括:两个率或两个构成比比较的卡方检验;多个率或多个构成比...

2017-06-16 18:33:08

阅读数:3763

评论数:0

Ttest(T检验)

1. Ttest(T检验) 1.1 概念 t检验是用t分布理论来推论差异发生的概率,从而比较两个平均数的差异是否显著。它与f检验、卡方检验并列。 t检验的来历 当总体呈正态分布,如果总体标准差未知,而且样本容量 检验是用 分布理论来推论差异发生的概率,从而比较两个平均数的差异是否显著。 检验分为单...

2017-05-27 15:31:08

阅读数:1698

评论数:0

Ftest(F检验)

1. Ftest(F检验) 1.1 概念 F检验又叫方差齐性检验。在两样本t检验中要用到F检验。 从两研究总体中随机抽取样本,要对这两个样本进行比较的时候,首先要判断两总体方差是否相同,即方差齐性。若两总体方差相等,则直接用t检验,若不等,可采用t'检验或变量变换或秩和检验等方法。 其中要判断两总...

2017-05-27 15:29:30

阅读数:3922

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭