- 博客(5)
- 收藏
- 关注
原创 Java语法几点注意
1.类内final字段可以在声明时给定初始值,也可以在构造函数中初始化2.接口中可以定义字段,但是要public类型的;接口不能有构造函数3.abstract定义抽象类,抽象类可以部分实现接口,不能实例化,但是可以子类化4.静态方法不能被子类重写5.Java有四种访问权限, 其中三种有访问权限修饰符,分别为private,public和protected,还有一种不带任何修饰符。
2015-08-06 18:41:30 320
原创 Java类型与变量问题
使用一个变量要有如下几步:(1)变量声明--申请地址名称,类似c++指针、地址(2)new分配地址空间,如果没有提供初始值则默认初始化(3)显式初始化,赋值注: int[] arr={1,2,3,4,5,6,7,8}; int[] b=arr; 如此的赋值,只是传递引用,两个变量都为同一个地址的引用
2015-08-06 18:05:09 279
转载 什么是信息熵
信息理论的鼻祖之一Claude E. Shannon把信息(熵)定义为离散随机事件的出现概率。计算公式H(x) = E[I(xi)] = E[ log(2,1/p(xi)) ] = -∑p(xi)log(2,p(xi)) (i=1,2,..n)一个系统越是有序,信息熵就越低;反之,一个系统越是混乱,信息熵就越高。所以,信息熵也可以说是系统有序化程度的一个度量。变量的不确定性
2015-08-06 09:46:34 588
转载 TF-IDF自动提取关键词
TF-统计 IDF逆文档频率算法思想:在一个文章中某个词的词频越大越有可能是关键词,如果一个词越少见,权重越大。用统计学语言表达,就是在词频的基础上,要对每个词分配一个"重要性"权重。最常见的词("的"、"是"、"在")给予最小的权重,较常见的词("中国")给予较小的权重,较少见的词("蜜蜂"、"养殖")给予较大的权重。这个权重叫做"逆文档频率"(Inverse Docume
2015-08-05 21:01:58 655
转载 "余弦相似性"(cosine similiarity)比较相似文章
基本思路是:如果这两句话的用词越相似,它们的内容就应该越相似。因此,可以从词频入手,计算它们的相似程度(1)利用分词器分词(2)词频统计(3)组建词频向量(4)对两向量求解余弦值注: 中科大的ICTCLAS分词系统摘抄自网络http://www.ruanyifeng.com/blog/2013/03/cosine_similarity.html
2015-08-05 20:48:34 755
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人