![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据挖掘与算法
HBQ_
数据挖掘,数据分析
展开
-
"余弦相似性"(cosine similiarity)比较相似文章
基本思路是:如果这两句话的用词越相似,它们的内容就应该越相似。因此,可以从词频入手,计算它们的相似程度(1)利用分词器分词(2)词频统计(3)组建词频向量(4)对两向量求解余弦值注: 中科大的ICTCLAS分词系统摘抄自网络http://www.ruanyifeng.com/blog/2013/03/cosine_similarity.html转载 2015-08-05 20:48:34 · 742 阅读 · 0 评论 -
北大、宾州语法树标记集合
北大标注集词性编码词性名称注解Ag形语素形容词语素。形容词代码为a,语素代码为g前面置以Aa形容词取英语形容词adjective的第1个字母ad副形词直接作状语的形容词。形容词代码a和副词代码d并在一起an名形词具有名词功能的形容词。形容词代码a和名词代码n一起b转载 2017-03-04 14:37:57 · 1391 阅读 · 0 评论 -
凸优化之凸函数与拟凸函数
函数f(x),对定义域S(凸集)上任意两点x1,x2∈S,Θ∈[0,1],如果有f[Θx1+(1-Θ)x2]≤max{f(x1),f(x2)},则称函数f(x)是拟(准)凸的;如果有f[Θx1+(1-Θ)x2]≤Θf(x1)+(1-Θ)f(x2),则称函数f(x)是凸的。 凸函数一定是拟凸函数,但反向则不一定成立,如同是单调的函数的凹函数、线性函数、凸函数的图形中,同样满足转载 2015-09-22 22:07:04 · 1591 阅读 · 0 评论 -
最大似然估计
其思想是取到已知样本的概率最大。在概率中所依赖参数的取值范围内寻求某个值使得这个概率最大化。得到的参数与样本有关,相应的统计量称为参数的极大似然估计量。根据样本求解极大似然估计量的函数称为似然函数。原创 2015-09-19 23:41:33 · 446 阅读 · 0 评论 -
svm几个参数
原创 2015-09-20 23:49:07 · 464 阅读 · 0 评论 -
bayes statistics
2015.9.19晚读贝叶斯统计(权作读书笔记)一. 基本概念1.先验信息--在抽样之前有关统计问题的一些信息,一般说来,先验信息主要来源于经验和历史资料。2.基于总体信息、样本信息和先验信息进行的统计推断称为贝叶斯统计学。他与经典统计学的主要差别在于是否利用先验信息。贝叶斯学派重视已出现的样本的观察值,而对尚未发生的样本观察值不予考虑。3.贝叶斯学派的最基本的观点是:任一个未知量原创 2015-09-19 19:25:35 · 794 阅读 · 0 评论 -
什么是信息熵
信息理论的鼻祖之一Claude E. Shannon把信息(熵)定义为离散随机事件的出现概率。计算公式H(x) = E[I(xi)] = E[ log(2,1/p(xi)) ] = -∑p(xi)log(2,p(xi)) (i=1,2,..n)一个系统越是有序,信息熵就越低;反之,一个系统越是混乱,信息熵就越高。所以,信息熵也可以说是系统有序化程度的一个度量。变量的不确定性转载 2015-08-06 09:46:34 · 576 阅读 · 0 评论 -
TF-IDF自动提取关键词
TF-统计 IDF逆文档频率算法思想:在一个文章中某个词的词频越大越有可能是关键词,如果一个词越少见,权重越大。用统计学语言表达,就是在词频的基础上,要对每个词分配一个"重要性"权重。最常见的词("的"、"是"、"在")给予最小的权重,较常见的词("中国")给予较小的权重,较少见的词("蜜蜂"、"养殖")给予较大的权重。这个权重叫做"逆文档频率"(Inverse Docume转载 2015-08-05 21:01:58 · 648 阅读 · 0 评论 -
非常好的理解遗传算法的例子
转载自:http://blog.csdn.net/b2b160/article/details/4680853遗传算法的手工模拟计算示例为更好地理解遗传算法的运算过程,下面用手工计算来简单地模拟遗传算法的各个主要执行步骤。 例:求下述二元函数的最大值:(1) 个体编码 遗传算法的运算对象是表示个体的符号串,所以必须把变量 x1, x2 编码为一种转载 2017-04-04 16:23:10 · 424 阅读 · 0 评论