iteye_13934-CSDN博客

原创文本特征提取方法研究

[size=x-large]文本特征提取方法研究[/size][size=large]一、课题背景概述[/size]文本挖掘是一门交叉性学科,涉及数据挖掘、机器学习、模式识别、人工智能、统计学、计算机语言学、计算机网络技术、信息学等多个领域。文本挖掘就是从大量的文档中发现隐含知识和模式的一种方法和工具,它从数据挖掘发展而来,但与传统的数据挖掘又有许多不同。文本挖掘的对象是海量、异构、分...

2013-06-09 17:22:48 199

原创关键词抽取（keywords extraction）的相关研究

[b]现有上线的关键词提取算法[/b]1. 语言特征+位置特征，如标题中的名词2. 对正文+标题的文本构造PAT，然后从中计算字符串的左右熵，互信息来抽取关键词参考论文《PAT-Tree-Based Keyword Extraction for Chinese Information Retrival》《Updateable PAT-Tree Approach to Chinese...

2012-12-22 15:14:05 654

原创互联网时代的社会语言学：基于SNS的文本数据挖掘

互联网时代的社会语言学：基于SNS的文本数据挖掘本文转载于[url]http://www.matrix67.com/blog/archives/5044[/url][b][i]几个概念[/i][/b][b]凝固度[/b]我们定义“电影院”的凝合程度就是 p(电影院) 与 p(电) · p(影院) 比值和 p(电影院) 与 p(电影) · p(院) 的比值中的较小值，“的...

2012-10-16 10:34:58 204

原创中文分词工具|页面分词

在研究百度中文分词的时候，最好的方法是借助中文分词工具，在这里搜寻了一些工具，希望对大家有所帮助。接下来，在此基础上发现好的分词工具再进行完善！中文分词工具：1) MSRSeg from Microsoft Research[url]http://research.microsoft.com/~jfgao/[/url]2) Hylanda[url]http://www.hy...

2012-10-11 00:23:37 738

原创大数据处理

[url]http://www.cnblogs.com/mengyan/archive/2012/10/09/2716194.html[/url]

2012-10-10 00:10:00 123

原创开源分类器

[size=large][b][url=http://www.csie.ntu.edu.tw/~cjlin/libsvm/]Libsvm[/url]是台湾大学林智仁教授等研究人员开发的一个用于支持向量机分类，回归分析及分布估计的c/c++开源库。另外，它也可以用于解决多类分类问题。[url=http://www.cs.waikato.ac.nz/ml/weka/]Weka[/url]是一个...

2012-09-10 00:10:56 289

这篇 How Facebook Ships Code 提供了大量的细节信息，之前已经有朋友提供了一个翻译版本，阅读之后发现有些许错误，并且原文有更新，所以基于前面的翻译版本我重新翻译了一个(完整的)版本。一并谢过。希望这个版本对大家也有所参考。我对 Facebook 的运作方式着迷。这是个非常独特的环境，很难被复制（这个方式并不适合所有的公司，即使有些公司尝试过这么做）。下面这些笔记来自我和F...

2012-08-13 22:22:18 153

原创 Computational Advertising 笔记（一）

[b]demonstrate 的 blogdaily blogComputational Advertising 笔记（一）[/b][color=red][/color][color=gray]这部分内容来自 Stanford 大学的这门课程。计算广告学（computational advertising）的基本问题是为给定的用户在给定的环境下找到最合适的广告，这么简单...

2012-07-11 23:48:57 413

原创搜索引擎查询相关提示功能（搜索建议）

[color=red] 相关提示也是几乎所有搜索引擎提供的一个附加功能,所谓相关提示,就是对于用户提交的查询进行分析,然后根据其它用户相似的查询给予用户提示,比如我输入查询”大长今”,检索系统会提示其它象”大长今主题曲”,”大长今下载”等等相关的一些其它用户查询.那么搜索引擎是根据什么原则对于其它用户的查询进行选择来提示用户相关查询呢?我们还是以百度为例子来看看怎么实现这个功能.要实...

2012-07-09 22:50:19 744

原创 Spelling Checker拼写检查错误提示(以及拼音提示功能)

[color=olive] 拼写检查错误提示是搜索引擎都具备的一个功能,也就是说用户提交查询给搜索引擎,搜索引擎检查看是否用户输入的拼写有错误,对于中文用户来说一般造成的错误是输入法造成的错误.那么我们就来分析看看百度是怎么实现这一功能的.　　我们分析拼写检查系统关注以下几个问题:　　(1)系统如何判断用户的输入是有可能发生错误的查询呢? 　　(2)如果判断是可能错误的查询输入...

2012-07-09 22:45:29 942

原创百度分词技术

之前在点石茶话会上也有重点讨论过百度分词算法,那时很多SEOer都认为百度在测试分词技术中,有些关键词带公司字眼的关键词,在搜索结果内容时基本上跟关键词不乎核,下面是中科院软件所张俊林一篇百度分词算法的三步曲,希望能帮SEOer解答一些关于百算分词算法的问题,内容可能长点,各位慢慢消化！查询处理以及分词技术随着搜索经济的崛起,人们开始越加关注全球各大搜索引擎的性能、技术和日流量,作...

2012-07-09 22:38:00 228

原创 Java自然语言处理 LingPipe

LingPipe是一个自然语言处理的Java开源工具包。LingPipe目前已有很丰富的功能，包括主题分类（Top Classification）、命名实体识别（Named Entity Recognition）、词性标注（Part-of Speech Tagging）、句题检测（Sentence Detection）、查询拼写检查（Query Spell Checking）、兴趣短语检测（Int...

2012-02-29 23:25:20 534

原创 Lingpipe中的spell模块-搜索建议

[b]搜索建议[/b]Lingpipe提供了一种可选择的拼写纠错方式，能对用户未输入完整的查询进行提示最相近的查询建议。图片中显示了google搜索框中的选择性纠错模型对查询进行补充完整。例如，首行搜索建议词是”amzon”,尽管用户输入查询”anaz”,这并不惊奇，因为那些以”anaz”为前缀的建议词的搜索结果比较小。不仅有词的搜索建议，还有短语纠错建议。比如一些搜索词像...

2012-02-27 23:45:30 165

原创 Lingpipe中的spell模块-拼写纠错

[b]基本模型[/b]基本技术工作如下：搜索引擎提供可使用的稳定被用来索引和被训练成为一种语言模型。这种语言模型存储的是短语和短语统计的特征信息。当提交一个查询时，类src/QuerySpellCheck.java 在模型中寻找与之匹配的字符编辑操作，诸如字符截取，插入，替换，转换和删除等等，这样使查询更好的适用于语言模型。如果你提交一个查询"Gretski"，模型中的数据来源为rec...

2012-02-27 23:00:03 244

原创 2010笔面试专栏一：字符串

[color=violet]计算机笔试和面试最常考察的就是字符串的各种操作。字符串处理是我们程序员日常工作最常遇到的问题，能够体现程序员的基本功。下面我就最近一个月以来的各种笔试和面试遇到的有关字符串处理的题目和大家分享一下：　　1、google笔试：编码实现求给定字符串(全为小写英文字母)的最小后继，如“abc”的最小后继为 “abd”,“dhz”的最小后继为“dj”。　　思路：题目比较...

2010-12-06 17:56:52 130

原创通过六个题目彻底掌握String笔试面试题

[size=x-small][color=red]Java中String类由于其特殊性（不变类），几乎是笔试面试中的必考题，当然有些题目其实没啥意思，不过关键是要通过题目掌握原理性的东西。下面六道题目，如果您全部做对了，且明白其所以然，那么Java中的关于String的笔试面试题应该难不到你了。也许您觉得polaris说的有点过了，然而彻底明白这些题目，对理解String类还是很有好处的。　　...

2010-12-06 17:11:50 130

原创程序员应知 -- 如何分析海量数据

转载[url]http://www.cnblogs.com/MicroTeam/archive/2010/12/03/1895071.html[/url][color=blue]在这个云计算热炒的时代，如果你没有处理过海量数据的话，你将不再是个合格的Coder。现在赶紧补补吧~前一阵子分析了一个将近1TB的数据群（gz文件，压缩10%）。因为第一次分析如此巨大的数据，没有经验，所以浪费了许...

2010-12-03 16:11:59 149

原创关于C/C++内存管理一些乱讲

[url]http://www.cnblogs.com/skynet/archive/2010/12/03/1895045.html[/url] 这篇博客最后写了5个规则，虽然简单，但是还是有些问题，在这里稍作说明。[color=darkred]【规则1】[/color]用malloc或new申请内存之后，应该立即检查指针值是否为NULL。防止使用指针值为NULL的内存。偶评：参考wik...

2010-12-03 16:03:20 109

原创推荐引擎mahout相关资料

[url]http://www.ibm.com/developerworks/cn/java/j-mahout/[/url][url]http://xlvector.cn[/url][url]https://groups.google.com/group/resys[/url]著名博客[url]Daniel Lemire http://www.daniel-lemire.com[/...

2010-12-01 15:33:55 119

原创双数组TRIE树原理

双数组TRIE树原理原文名称：An Efficient Digital Search Algorithm by Using a Double-Array Structure作者：JUN-ICHI AOE译文：使用双数组结构的一个高效的Digital Search算法摘要：本文介绍了一种新的内部（内部排序的内部，也就是在内存里）数组结构的digital se...

2010-09-29 12:25:25 200

原创贝叶斯、概率分布与机器学习

华科的一牛人写的非常清晰[url]http://qun.qq.com/air/#9826518/bbs/view/cd/9/td/4/[aio][/url]一. 简单的说贝叶斯定理：贝叶斯定理用数学的方法来解释生活中大家都知道的常识形式最简单的定理往往是最好的定理，比如说中心极限定理，这样的定理往往会成为某一个领域的理论基础。机器学习的各种算法中使用的方法，最常见的就是贝叶斯定理。...

2010-09-28 10:07:23 107

原创堆和栈的区别（转）

[url]http://hi.baidu.com/buptshirley/blog/item/ac2cd72d476f26341f3089ad.html[/url]堆和栈的区别堆（Heap）栈（Stack）一个由c/C++编译的程序占用的内存分为以下几个部分 :1、栈区（stack） —— 由编译器自动分配释放，存放函数的参数值，局部变量的值等。...

2010-09-21 09:03:33 77

原创 Google决定放弃MapReduce

[url]http://www.phpchina.com/?action-viewnews-itemid-37229[/url][url]http://highscalability.com/blog/2010/9/11/googles-colossus-makes-search-real-time-by-dumping-mapreduce.html[/url]这是西方教育的精髓，勇于...

2010-09-20 19:44:31 255

原创 Summerizing out:string to int,int to string

转处百度NLP部门jiju[url]http://super-jiju.spaces.live.com/?_c11_BlogPart_BlogPart=blogview&_c=BlogPart&partqs=amonth%3d12%26ayear%3d2008[/url]1.[code="C++"]integer = atoi( my_string.c_str() );[/code]...

2010-09-03 16:27:23 123

原创 Weka下LibSVM (WLSVM)的配置

引用：[url]http://www.cs.iastate.edu/~yasser/wlsvm/[/url]Weka安装完成之后就可以在分类器里面选择libsvm，但是会提示找不到model。这是因为weka并没有直接把svm的包整合进来（可能考虑到升级等情况），这时只需设置一下就可以像其他分类器一样使用libsvm了。（1）下载WLSVM包，上面的引用地址页面里可以找...

2010-09-01 16:44:54 101

原创 Google的三大核心技术MapReduce/GFS/BigTable

Mapreduce:[url]http://blog.csdn.net/zealotcat/archive/2010/01/08/5148091.aspx[/url][url]http://blog.csdn.net/active1001/archive/2007/07/02/1675920.aspx[/url]GFS:[url]http://blog.csdn.net/xul...

2010-08-19 11:18:58 281

原创计算字符串相似度

转载自[url]http://blog.csdn.net/liwenjia1981/archive/2010/07/13/5731040.aspx[/url]编程之美3.3看完题后，毫无头绪书上的解题思路很好，首先两个字符串的距离肯定是个可知数，必须小于两字符串之和。可以通过删除操作将两个串都变成空串。书上所示的递归方法，代码敲出来了，有点点不同 ...

2010-08-17 21:36:54 132

原创 Weka学习（ensemble算法）

转载自[url]http://blog.csdn.net/anqiang1984/archive/2009/04/03/4045903.aspx[/url] 前两次我们讲了数据挖掘中比较常见的两类方法。这次我来介绍一下ensemble（集成技术），总的来说，ensemble技术是归类在分类中的。它的主要原理是通过集成多个分类器的效果来达到提高分类效果的目的。简单我们可以通过两张图...

2010-07-25 10:37:16 280

原创 Weka初步

转载自[url]http://blog.csdn.net/anqiang1984/archive/2009/04/01/4040571.aspx[/url]从前年开始使用weka最数据挖掘方面的研究，到现在有一年半的时间了。看到我们同组的兄弟写了关于weka方面的总结，我也想整理一下。因为网上的资料实在是太少，记得刚接手的时候，真是硬着头皮看代码。不过到现在看来，也积累了很多的代码了。希望能够...

2010-07-25 10:28:09 94

原创 Weka使用之聚类分析

转自：[url]http://anna-zr.iteye.com/blog/578938[/url][url]http://blog.sina.com.cn/s/blog_591e979d0100kds1.html[/url] 上次我介绍了分类器的使用方法，这次我来介绍一下聚类算法。聚类算法在数据挖掘里面被称之为无监督学习（unsupervised learning），这是与分类算法（...

2010-07-24 22:45:58 1155

原创 Weka使用之属性选择

转自：[list][*][url]http://anna-zr.iteye.com/blog/578943[/url][/list][url]http://blog.sina.com.cn/s/blog_591e979d0100kds0.html[/url]在这一节我们看看属性选择。在数据挖掘的研究中，通常要通过距离来计算样本之间的距离，而样本距离是通过属性值来计算的。我们知道对于...

2010-07-24 22:42:04 206

原创 JAVA读文件夹

原文地址：java 读文件夹作者：无尽空虚判断一个路径是文件还是文件夹，是文件则输出文件路径和文件名，是文件夹则输出文件夹内的文件。 [code="java"]package test;import java.io.File;import java.io.FileNotFoundException;import java.io.IOException;public cl...

2010-07-05 11:23:11 97

原创 XML的四种解析器(dom,sax,jdom,dom4j)

XML的四种解析器(dom,sax,jdom,dom4j)原理及性能比较+代码实例　　　　　　　　关键词：1）DOM(JAXP Crimson解析器) DOM是用与平台和语言无关的方式表示XML文档的官方W3C标准。DOM是以层次结构组织的节点或信息片断的集合。这个层次结构允许开发人员在树中寻找特定信息。分析该结构通常需要加载整个文档和构造层次结构，然后才能做任何工作。由于...

2010-07-03 14:39:38 144

原创 DOM树的结构（转）

一．引言XML是EXtensible Markup Language的缩写，它是一种可扩展性标识语言, 能够让你自己创造标识，标识你所表示的内容。DOM全称是Document Object Model(文档对象模型)，定义了一组与平台和语言无关的接口，以便程序和脚本能够动态访问和修改XML文档内容、结构及样式。XML创建了标识，而 DOM的作用就是告诉程序如何操作和显示这些标识。二．DOM...

2010-07-03 13:55:23 303

原创机器学习的开源工具

[b][size=x-small]以下工具绝大多数都是开源的，基于GPL、Apache等开源协议，使用时请仔细阅读各工具的license statementI. Information Retrieval1. Lemur/IndriThe Lemur Toolkit for Language Modeling and Information Retrieval[url]http...

2010-05-12 10:26:36 230

最大公共子串与字符串相似度 String Process(2)

最大公共子串：2009-11-27 10:421. Levenshtein Distance该算法又称之为 "编辑距离"，用于计算两个字符串的相似程度。原理很简单，就是返回将第一个字符串转换(删除、插入、替换)成第二个字符串的编辑次数。次数越少，意味着字符串相似度越高。算法原理：Wikipedia - Levenshtein distance 本文摘自：http://www.r...

2010-04-06 13:07:18 203

字符串处理心得 String Process（1）

字符串表示方法：Char *Char[]stringStringWchar字符串需要实现类的方法：默认构造函数析构函数拷贝构造函数赋值函数其他辅助函数1.字符串与整形之间的转换：要求不调用库函数atoi(),atio()[code="C++"]int str2int(const char *str) { int i=0, s...

2010-04-06 11:23:42 324

lucene_guy