- 博客(13)
- 资源 (20)
- 收藏
- 关注
转载 词干提取(stemming)和词形还原(lemmatization)
以下内容均摘自论文《词形还原方法及实现工具比较分析》词形还原(lemmatization),是把一个任何形式的语言词汇还原为一般形式(能表达完整语义),而词干提取(stemming)是抽取词的词干或词根形式(不一定能够表达完整语义)。词形还原和词干提取是词形规范化的两类重要方式,都能够达到有效归并词形的目的,二者既有联系也有区别现将共同点和联系总
2013-11-24 20:49:36 4813
原创 Python中的sqlite模块无法导入的解决方案
官网http://www.sqlite.org/index.html下载pysqlite所需安装包我安装的是Python 2.7,安装在了C盘根目录,在C:\Python27\Lib找到文件名为sqlite3的文件,相应的文件路径为C:\Python27\Lib\sqlite3通过如下命令查看Python系统路径import syssys.path如下图所示
2013-11-22 20:22:47 2308
原创 Python清屏方法
启动Python有两种方式,分别为“Windows命令行窗口”和“IDLE”“命令行窗口”下可以通过如下两种方法:1. import subprocess subprocess.call("clear") # linux/mac subprocess.call("cls", shell=True) # windows执行完次命令后,窗口顶
2013-11-22 20:20:27 1984
转载 计算机视觉、机器学习相关领域论文和源代码大集合--持续更新……
注:下面有project网站的大部分都有paper和相应的code。Code一般是C/C++或者Matlab代码。最近一次更新注:下面有project网站的大部分都有paper和相应的code。Code一般是C/C++或者Matlab代码。最近一次更新:2013-3-17一、特征提取Feature Extraction:· SIF
2013-11-22 15:41:05 1473
原创 计算机科学中最重要的32个算法
奥地利符号计算研究所(Research Institute for Symbolic Computation,简称RISC)的Christoph Koutschan博士在自己的页面上发布了一篇文章,提到他做了一个调查,参与者大多数是计算机科学家,他请这些科学家投票选出最重要的算法,以下是这次调查的结果,按照英文名称字母顺序排序。A* 搜索算法——图形搜索算法,从给定起点到给定终点计算出
2013-11-22 14:42:04 960
转载 数据挖掘数据集资源
1、气候监测数据集 http://cdiac.ornl.gov/ftp/ndp026b2、几个实用的测试数据集下载的网站http://www.cs.toronto.edu/~roweis/data.htmlhttp://www.cs.toronto.edu/~roweis/data.htmlhttp://kdd.ics.uci.edu/summary.task.ty
2013-11-22 12:12:23 1608
转载 波特词干算法
在英语中,一个单词常常是另一个单词的“变种”,如:happy=>happiness,这里happy叫做happiness的词干(stem)。在信息检索系统中,我们常常做的一件事,就是在Term规范化过程中,提取词干(stemming),即除去英文单词分词变换形式的结尾。应用最为广泛的、中等复杂程度的、基于后缀剥离的词干提取算法是波特词干算法,也叫波特词干器(Porter Stemmer)。
2013-11-18 15:39:36 1417 1
转载 数学之美番外篇:平凡而又神奇的贝叶斯方法
转自:http://mindhacks.cn/2008/09/21/the-magical-bayesian-method/概率论只不过是把常识用数学公式表达了出来。——拉普拉斯记得读本科的时候,最喜欢到城里的计算机书店里面去闲逛,一逛就是好几个小时;有一次,在书店看到一本书,名叫贝叶斯方法。当时数学系的课程还没有学到概率统计。我心想,一个方法能够专门写出一本书来,肯定很牛
2013-11-15 15:11:13 1622
转载 数据挖掘领域十大经典算法初探
数据挖掘领域十大经典算法初探 译者:July 二零一一年一月十五日-----------------------------------------参考文献:国际权威的学术组织ICDM,于06年12月年评选出的数据挖掘领域的十大经典算法:C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kN
2013-11-15 12:00:39 1387
转载 九大排序算法总结
排序:对一序列对象根据某个关键字进行排序;稳定:如果a原本在b前面,而a=b,排序之后a仍然在b的前面;不稳定:如果a原本在b的前面,而a=b,排序之后a可能会出现在b的后面; 内排序:所有排序操作都在内存中完成;外排序:由于数据太大,因此把数据放在磁盘中,而排序通过磁盘和内存的数据传输才能进行; 排序耗时的操作:比较、移动;
2013-11-15 09:57:51 1178
转载 九大排序算法再总结
本文是 http://blog.csdn.net/xiazdong/article/details/7304239 的补充,当年看了《大话数据结构》总结的,但是现在看了《算法导论》,发现以前对排序的理解还不深入,所以打算对各个排序的思想再整理一遍。本文首先介绍了基于比较模型的排序算法,即最坏复杂度都在Ω(nlgn)的排序算法,接着介绍了一些线性时间排序算法,这些排序算法虽然都在线性时间,但是都
2013-11-15 09:56:49 1147
转载 从决策树学习谈到贝叶斯分类算法、EM、HMM
第一篇:从决策树学习谈到贝叶斯分类算法、EM、HMM引言 最近在面试中,除了基础 & 算法 & 项目之外,经常被问到或被要求介绍和描述下自己所知道的几种分类或聚类算法(当然,这完全不代表你将来的面试中会遇到此类问题,只是因为我的简历上写了句:熟悉常见的聚类 & 分类算法而已),而我向来恨对一个东西只知其皮毛而不得深入,故写一个有关数据挖掘十大算法的系列文章以作为自己备试
2013-11-15 09:54:33 2262 1
The Google file system(免积分下载)
2014-01-04
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人