自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 Java语法几点注意

1.类内final字段可以在声明时给定初始值,也可以在构造函数中初始化2.接口中可以定义字段,但是要public类型的;接口不能有构造函数3.abstract定义抽象类,抽象类可以部分实现接口,不能实例化,但是可以子类化4.静态方法不能被子类重写5.Java有四种访问权限, 其中三种有访问权限修饰符,分别为private,public和protected,还有一种不带任何修饰符。

2015-08-06 18:41:30 320

原创 Java类型与变量问题

使用一个变量要有如下几步:(1)变量声明--申请地址名称,类似c++指针、地址(2)new分配地址空间,如果没有提供初始值则默认初始化(3)显式初始化,赋值注:  int[] arr={1,2,3,4,5,6,7,8};         int[] b=arr;         如此的赋值,只是传递引用,两个变量都为同一个地址的引用

2015-08-06 18:05:09 279

转载 什么是信息熵

信息理论的鼻祖之一Claude E. Shannon把信息(熵)定义为离散随机事件的出现概率。计算公式H(x) = E[I(xi)] = E[ log(2,1/p(xi)) ] = -∑p(xi)log(2,p(xi)) (i=1,2,..n)一个系统越是有序,信息熵就越低;反之,一个系统越是混乱,信息熵就越高。所以,信息熵也可以说是系统有序化程度的一个度量。变量的不确定性

2015-08-06 09:46:34 588

转载 TF-IDF自动提取关键词

TF-统计    IDF逆文档频率算法思想:在一个文章中某个词的词频越大越有可能是关键词,如果一个词越少见,权重越大。用统计学语言表达,就是在词频的基础上,要对每个词分配一个"重要性"权重。最常见的词("的"、"是"、"在")给予最小的权重,较常见的词("中国")给予较小的权重,较少见的词("蜜蜂"、"养殖")给予较大的权重。这个权重叫做"逆文档频率"(Inverse Docume

2015-08-05 21:01:58 655

转载 "余弦相似性"(cosine similiarity)比较相似文章

基本思路是:如果这两句话的用词越相似,它们的内容就应该越相似。因此,可以从词频入手,计算它们的相似程度(1)利用分词器分词(2)词频统计(3)组建词频向量(4)对两向量求解余弦值注: 中科大的ICTCLAS分词系统摘抄自网络http://www.ruanyifeng.com/blog/2013/03/cosine_similarity.html

2015-08-05 20:48:34 755

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除