关闭

NLP分词

NLP分词jar包很大,不建议使用maven下载,几百M,直接官网下载 package test import edu.stanford.nlp.ling.{CoreAnnotations, CoreLabel} import edu.stanford.nlp.pipeline.{Annotation, StanfordCoreNLP} import org.apache.commons.la...
阅读(40) 评论(0)

Ansj分词

/** * Created by liuwei on 2017/8/24. */ object AnsjTest { def main(args: Array[String]): Unit = { val string = "test环境服务器启动方式更新为supervisor启动" val t = tfidfAnsj(string, List.empty[S...
阅读(30) 评论(0)

聚类LDA

1. 聚类LDA 1.1 概念 LDA(Latent Dirichlet Allocation)是一种文档主题生成模型,也称为一个三层贝叶斯概率模型,包含词、主题和文档三层结构。所谓生成模型,就是说,我们认为一篇文章的每个词都是通过“以一定概率选择了某个主题,并从这个主题中以一定概率选择某个词语”这样一个过程得到。文档到主题服从多项式分布,主题到词服从多项式分布。[1]  LDA是一种非监督...
阅读(34) 评论(0)

SVD降维

1. SVD降维 1.1 概念 奇异值分解(Singular value decomposition) 现实世界里,为了实现类似特征值分解的计算,我们使用奇异值分解。奇异值分解适用于任何矩阵,如下所示,其中A是一个m*n的矩阵: A=Um∗mΣm∗nVTn∗nA=Um∗mΣm∗nVn∗nT 其中 U 是一个m*m的正交矩阵,其向量被称为左奇异向量 V 也是一个n*n的正交矩阵,其向量...
阅读(45) 评论(0)

PCA降维

1. PCA降维 1.1 概念 主成分分析( PrincipalComponent Analysis , PCA )或者主元分析。是一种掌握事物主要矛盾的统计分析方法,它可以从多元事物中解析出主要影响因素,揭示事物的本质,简化复杂的问题。PCA类训练一个模型,用PCA将向量投射到一个低维度空间   1.2 用处 数据降维,将复杂的维度简单化,减少运算量 1.3 细节 Vector...
阅读(133) 评论(0)

文本词频TF-IDF

1. 文本词频TF-IDF 1.1 概念 词频-逆向文件频率(TF-IDF)是一种在文本挖掘中广泛使用的特征向量化方法,它可以体现一个文档中词语在语料库中的重要程度。 词语由t表示,文档由d表示,语料库由D表示。词频TF(t,,d)是词语t在文档d中出现的次数。文件频率DF(t,D)是包含词语的文档的个数。如果我们只使用词频来衡量重要性,很容易过度强调在文档中经常出现而并没有包含太多与文档有...
阅读(48) 评论(0)

文本词频Countvectorizer

1. 文本词频Countvectorizer 1.1 概念 CountVectorizer旨在通过计数来将一个文档转换为向量。当不存在先验字典时,Countvectorizer作为Estimator提取词汇进行训练,并生成一个CountVectorizerModel用于存储相应的词汇向量空间。该模型产生文档关于词语的稀疏表示,其表示可以传递给其他算法,例如LDA。 在CountVectori...
阅读(104) 评论(0)

文本词频Word2Vec

1. 文本词频Word2Vec 1.1 概念 word2vec就是用一个一层的神经网络(CBOW的本质)把one-hot形式的词向量映射到分布式形式的词向量 用来推断总体参数的统计量称为估计量(estimator) 当经测定的具体数值代入估计量时,它就是一个具体的数值,称为估计值(estimate) 。 an estimator is rule which before weobserv...
阅读(112) 评论(0)

K-S正态检验

1. K-S正态检验 1.1 概念 K-S检验不仅能够检验单个总体是否服从某一理论分布,还能够检验两总体分布是否存在显著差异。其原假设是:两组独立样本来自的两总体的分布无显著差异。 这里是以变量值的秩作为分析对象,而非变量值本身。   1.2 用处 K-S检验通过对两个分布之间的差异的分析,判断样本的观察结果是否来自制定分布的总体 1.3 细节 观测数组不一定符合正态分布,需要...
阅读(159) 评论(0)

Chi-squared test(卡方检验/χ2检验)

1. Chi-squared test(卡方检验/χ2检验) 1.1 概念 χ2检验是对分类数据的频数进行分析的统计方法。(统计学第六版 中国人女大学出版社 P216) 卡方检验是用途非常广的一种假设检验方法,它在分类资料统计推断中的应用,包括:两个率或两个构成比比较的卡方检验;多个率或多个构成比比较的卡方检验以及分类资料的相关分析等。 1.2 用处 卡方检验就是统计样本的实际观测值与理...
阅读(215) 评论(0)

Ttest(T检验)

1. Ttest(T检验) 1.1 概念 t检验是用t分布理论来推论差异发生的概率,从而比较两个平均数的差异是否显著。它与f检验、卡方检验并列。 t检验的来历 当总体呈正态分布,如果总体标准差未知,而且样本容量 检验是用 分布理论来推论差异发生的概率,从而比较两个平均数的差异是否显著。 检验分为单总体检验和双总体 检验。 1.单总体t检验 单总体 检验是检验一个样本平均数与一已知的总...
阅读(236) 评论(0)

Ftest(F检验)

1. Ftest(F检验) 1.1 概念 F检验又叫方差齐性检验。在两样本t检验中要用到F检验。 从两研究总体中随机抽取样本,要对这两个样本进行比较的时候,首先要判断两总体方差是否相同,即方差齐性。若两总体方差相等,则直接用t检验,若不等,可采用t'检验或变量变换或秩和检验等方法。 其中要判断两总体方差是否相等,就可以用F检验。 1.2 用处 检验两组数据是否存在显著性差异 1.3...
阅读(180) 评论(0)

akka初学2

这里还有一个更复杂的例子,涉及到两个actor的交互。 就像两个人在乒乒乓乓的打乒乓球。 两个actor来回的ping pang,直到达到特定的次数才停止。 这里定义了两个actor: Ping和Pang。 Ping 接收StartMessage和 PongMessage。 StartMessage是一个启动消息,由main对象发送,PongMessage来自Pong actor,...
阅读(118) 评论(0)

Akka初学1

package akka.scala import akka.actor.{Actor, ActorSystem, Props} /** * 定义 AkkaTest1 Actor * Created by liuwei on 2017/5/11. */ class AkkaTest1 extends Actor { /** * receive方法定义实现,其中使用了模式...
阅读(112) 评论(0)

sbt与maven简单对比

sbt vs maven sbt项目用ivy2,可以使用maven的包sbt可以进行增量编译,这个特性还是非常有吸引力,因为scala的编译速度是堪比c++的sbt提供了一个scala的console,并且导入默认的一些包,非常方便的交互sbt在插件上支持的并不是那么好,很多maven中好用的功能,需要用额外的插件,比如mvn dependency:tree ps:最新版的不需要plugin...
阅读(278) 评论(0)

F检验 Ftes算法t我的见解

最近在写ftest算法,写一下我对它的理解 一般而言,为了确定从样本(sample)统计结果推论至总体时所犯错的概率,我们会利用统计学家所开发的一些统计方法,进行统计检定。   通过把所得到的统计检定值,与统计学家建立了一些随机变量的概率分布(probability distribution)进行比较,我们可以知道在多少%的机会下会得到目前的结果。倘若经比较后发现,出现这结果...
阅读(205) 评论(0)

km架构20170413

...
阅读(173) 评论(0)

解读超轻量级DI容器-Guice与Spring框架的区别

依赖注入,DI(Dependency Injection),它的作用自然不必多说,提及DI容器,例如spring,picoContainer,EJB容器等等,近日,google诞生了更轻巧的DI容器……Guice! 废话不多讲了,先看看Guice是如何实现注入的吧。 定义一个简单的service接口和它的实现吧:   public interface MyService {   ...
阅读(86) 评论(0)

有返回值和异常的Callable线程

package thread; import java.util.ArrayList; import java.util.concurrent.Callable; import java.util.concurrent.ExecutionException; import java.util.concurrent.ExecutorService; import java.util.concurre...
阅读(240) 评论(0)

初学scala

package com.lv.test import java.io.IOException import java.io.FileNotFoundException import java.io.FileReader import java.io.PrintWriter import java.io.File import scala.io.Source /** * scala 初学 ...
阅读(84) 评论(0)
233条 共12页1 2 3 4 5 ... 下一页 尾页
    个人资料
    • 访问:345527次
    • 积分:5598
    • 等级:
    • 排名:第4905名
    • 原创:162篇
    • 转载:71篇
    • 译文:0篇
    • 评论:55条
    最新评论