Natural Language Process
文章平均质量分 72
wangran51
这个作者很懒,什么都没留下…
展开
-
基本文本聚类方法
转自:http://hi.baidu.com/yaomohan/blog/item/e7b1c2c2516638110ef477cc.html经过N天的努力,我的第一个文本聚类小程序终于火热出炉了.真不容易啊,在网上看了很多程序才明白其中的核心原理。其实原理很简单,但这个程序最麻烦的是 一些细节,比如字符串的处理还有用什么样的数据结构来存储数据等等,这些才是最麻烦的。下面我会详细介绍我所总结的转载 2012-03-22 10:52:53 · 22700 阅读 · 0 评论 -
BookList
[收藏]最近看到的机器学习、NLP相关书单2013年04月01日 ⁄ 读书 ⁄ 共 310字 ⁄ 评论数 3 ⁄ 被围观 557 阅读+书单再多,不去读,也是白搭~~水木上的machine learning书单:http://www.newsmth.net/bbscon.php?bid=5&id=34859&ftype=11weibo上@转载 2013-04-19 10:18:41 · 943 阅读 · 0 评论 -
Simhash 网页重复
Simhash传统IR领域内文本相似度比较所采用的经典方法是文本相似度的向量夹角余弦,其主要思想是根据一个文章中出现词的词频构成一个向量,然后计算两篇文章对应向量的向量夹角。但由于有可能一个文章的特征向量词特别多导致整个向量维度很高,使得计算的代价太大,对于Google这种处理万亿级别的网页的搜索引擎而言是不可接受的,simhash算法的主要思想是降维,将高维的特征向量映射成一个f-bit转载 2013-03-11 12:29:14 · 1122 阅读 · 0 评论 -
Text Mining Blog
http://www.blogjava.net/fullfocus原创 2013-03-11 12:06:03 · 983 阅读 · 0 评论 -
EasyToLife的博客
http://www.cnblogs.com/LeftNotEasy/原创 2013-01-09 11:48:28 · 669 阅读 · 0 评论 -
PyMining
PyMining-开源中文文本数据挖掘平台 Ver 0.1发布项目首页:http://code.google.com/p/python-data-mining-platform/ (可能需翻墙)目前已经在该googlecode中加入了Tutorial等内容,可以在wiki中查看 项目介绍(复制自项目首页的说明):这是一个能够根据源数据(比如说转载 2013-01-09 11:47:52 · 2035 阅读 · 0 评论 -
文本分类 特征选取之CHI开方检验
前文提到过,除了分类算法以外,为分类文本作处理的特征提取算法也对最终效果有巨大影响,而特征提取算法又分为特征选择和特征抽取两大类,其中特征选择算法有互信息,文档频率,信息增益,开方检验等等十数种,这次先介绍特征选择算法中效果比较好的开方检验方法。开方检验最基本的思想就是通过观察实际值与理论值的偏差来确定理论的正确与否。具体做的时候常常先假设两个变量确实是独立的(行话就叫做“原假设”),然后转载 2012-12-28 10:05:17 · 11781 阅读 · 2 评论 -
特征选择与特征权重区别
在文本分类的过程中,特征(也可以简单的理解为“词”)从人类能够理解的形式转换为计算机能够理解的形式时,实际上经过了两步骤的量化——特征选择阶段的重要程度量化和将具体文本转化为向量时的特征权重量化。初次接触文本分类的人很容易混淆这两个步骤使用的方法和各自的目的,因而我经常听到读者有类似“如何使用TFIDF做特征选择”或者“卡方检验量化权重后每篇文章都一样”等等困惑。想想通过指纹来识别一个人的身份转载 2013-01-07 10:19:31 · 7605 阅读 · 0 评论 -
基于libsvm的中文文本分类原型
支持向量机(Support Vector Machine)是Cortes和Vapnik于1995年首先提出的,它在解决小样本 、非线性及高维模式识别 中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中。支持向量机方法是建立在统计学习理论的VC 维理论和结构风险最小 原理基础上的,根据有限的样本信息在模型的复杂性(即对特定训练样本的学习精度,Accuracy)和学习能力(即无错误地转载 2012-12-28 10:21:06 · 2633 阅读 · 1 评论 -
CRF++使用
前段时间写了中文分词的一些记录里面提到了CRF的分词方法,近段时间又研究了一下,特把方法写下来,以备忘,另外,李沫南同学优化过CRF++,见:http://www.coreseek.cn/opensource/CRF/。我觉得CRF++还有更大的优化空间,以后有时间再搞。 1 下载和安装CRF的概念,请google,我就不浪费资源啦。官方地址如下:http://crfpp.sour转载 2012-12-28 11:01:15 · 7051 阅读 · 0 评论 -
情感语料
http://www.searchforum.org.cn/tansongbo/corpus-senti.htm原创 2012-07-19 20:39:55 · 1049 阅读 · 0 评论 -
人工智能——归结演绎推理
人工智能——归结演绎推理1. 子句1) 文字:原子谓词及其否定定义1:任何文字的析取式称为子句定义2:不包含任何文字的子句称为空子句,子句是永假的 2) 由子句构成的集合称为子句集,谓词公式成子句集的步骤a) 利用等价关系消去谓词公式中的、 b) 利用下列等价关系把“”移到紧靠谓词的位置转载 2011-10-26 09:46:56 · 8449 阅读 · 0 评论 -
求置信区间
英文为:binomial proportion confidence interval一.正态近似——最常见和常用的 它的英文名:normal approximation interval.此公式适用于二项分布的大样本。是否为大样本的一个近似的必要的条件是: 这个区间应完全在(0,1)区间之内。对公式的更多了解:http://en.wikip转载 2012-02-20 11:17:52 · 5764 阅读 · 0 评论 -
Latent dirichlet allocation note -- Prepare
转自莘莘学子blog : http://ljm426.blog.163.com/blog/static/120003220098110425415/By: Zhou, Blog: http://foreveralbum.yo2.cn1 基础知识1.1 贝叶斯统计假设有两个箱子,每个箱子装了8个球,A箱子3个红球5个白球,B箱子6个红球2个白球。如果问从A箱子转载 2012-03-21 10:29:02 · 1518 阅读 · 0 评论 -
【推荐】LSI(latent semantic indexing) 完美教程
【推荐】LSI(latent semantic indexing) 完美教程"instead of lecturing about SVD I want to show you how things work --step by step" -- 如果大家认同这句话的话,Dr. E. Garcia写的此教程就是最适合你阅读的LSI / LSA教程。原文比较长,直接贴转载 2013-06-05 15:16:37 · 3709 阅读 · 0 评论