自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

  • 博客(5)
  • 资源 (2)
  • 收藏
  • 关注

原创 基于卡方统计的种子词扩展

1.首先介绍下卡方公式 其中,t代表候选特征,c代表对应分类,A代表t在c中出现的次数。B代表t不在c中出现的次数,C代表c中不出现t的次数。D代表文档集中c和t都不出现的次数,N代表整个文档集的大小。(次数不是指t的次数,均指样本数) 2.扩展过程 a.首先,既然是扩展,那么就一定有原始的种子,这个可以人工挑出来。种子词不必很多,但要有强烈类别代表性。 b.假设有n个类别,...

2013-03-31 12:57:00 204

原创 判断中英文符号、标点

static boolean isSymbol(char ch) { if(isCnSymbol(ch)) return true; if(isEnSymbol(ch))return true; if(0x2010 <= ch && ch <= 0x2017) return true; if(0x2020 <= ch && ch <= 0x2027) return true

2013-03-27 08:33:42 4787

转载 归并排序

#include #include //将有序的X[s..u]和X[u+1..v]归并为有序的Z[s..v] void merge(int X[], int Z[], int s, int u, int v) { int i, j, q; i = s; j = u + 1; q = s; while( i <= u && j<= v ) {

2013-03-19 16:20:45 597

转载 编程之美2.5 寻找最大的K个数

/********************问题描述************************ 有若干个无序的数(假设数目为N),如何选择其中最大的 K个数 *****************************************************/ #include #include #include using namespace std; /*************

2013-03-18 15:22:22 563

转载 距离和相似度度量

在数据分析和数据挖掘的过程中,我们经常需要知道个体间差异的大小,进而评价个体的相似性和类别。最常见的是数据分析中的相关分析,数据挖掘中的分类和聚类算法,如K最近邻(KNN)和K均值(K-Means)。当然衡量个体差异的方法有很多,最近查阅了相关的资料,这里整理罗列下。 为了方便下面的解释和举例,先设定我们要比较X个体和Y个体间的差异,它们都包含了N个维的特征,即X=(x1, x2, x3, …

2013-03-06 13:24:41 798

CRF++-0.54(Cygwin编译通过).tar.gz

CRF++ 的开源包,在Cygwin(unix)编译通过

2013-01-12

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除