bluenight专栏

宁静致远

贝叶斯反垃圾邮件技术

一、 贝叶斯反垃圾邮件技术介绍 贝叶斯是基于概率的一种算法,是Thomas Bayes:一位伟大的数学大师所创建的,目前此种算法用于过滤垃圾邮件得到了广泛地好评。贝叶斯过滤器是基于“自我学习”的智能技术,能够使自己适应垃圾邮件制造者的新把戏,同时为合法电子邮件提供保护。在智能邮件过滤技术...

2010-04-04 11:52:00

阅读数:6943

评论数:0

语义和语用--转

《槛外人观察》【注】                          语义和语用 周锡令 xlzhou0421@vip.sina.com 2003-3-29   据说,既涉及人工语言,又涉及自然语言的“符号学(Semiotics)”是由三部分组成的:语法...

2009-11-23 11:33:00

阅读数:2238

评论数:0

目前对Learning to Rank 最全面的总结

Learning to Rank for Information Retrieval Tie-Yan Liu Microsoft Research Asia 类似于课件  点击下载 Learning to Rank Hang Li Microsof...

2009-11-22 14:01:00

阅读数:13751

评论数:0

计算广告学(Computational Advertising)CA

计算广告学是一门正在兴起的分支学科,它涉及到大规模搜索和文本分析、信息获取、统计模型、机器学习、分类、优化以及微观经济学。计算广告学所面临的最主要挑战是在特定语境下特定用户和相应的广告之间找到“最佳匹配”。语境可以是用户在搜索引擎中输入的查询词(”Sponsored Search”),也可以是用户...

2009-11-22 13:34:00

阅读数:6636

评论数:0

OHSUMED数据集介绍

1. OHSUMED数据集介绍 本实验中采用OHSUMED测试数据集合(其也被用于第9 届国际文本检索竞赛TREC9 的文档过滤子竞赛)。OHSUMED 数据集合由William Hersh和他的同事们一起建立,其文档来源于医药信息数据库MEDLINE10,它包含了从1987 年到1991 年五...

2009-11-22 13:29:00

阅读数:2841

评论数:3

lucene的使用

1 lucene简介 1.1 什么是lucene Lucene是一个全文搜索框架,而不是应用产品。因此它并不像www.baidu.com 或者google Desktop那么拿来就能用,它只是提供了一种工具让你能实现这些产品。 1.2 lucene能做什么 要回答这个...

2009-11-17 21:57:00

阅读数:1056

评论数:0

搜索引擎技术揭密:中文分词技术

信息的飞速增长,使搜索引擎成为人们查找信息的首选工具,Google、百度、中国搜索等大型搜索引擎一直是人们讨论的话题。随着搜索市场价值 的不断增加,越来越多的公司开发出自己的搜索引擎,阿里巴巴的商机搜索、8848的购物搜索等也陆续面世,自然,搜索引擎技术也成为技术人员关注的热点。 搜索引擎技...

2009-11-17 21:21:00

阅读数:1474

评论数:0

查全率[召回率]与精度[查准率] 之辨析

查全率[召回率]与精度[查准率] 之辨析: 召回率(recall rate)和精度(precision)定义: 从一个大规模数据集合中检索文档的时,可把文档分成四组    -系统检索到的相关文档(A) - 系统...

2009-11-17 21:13:00

阅读数:4849

评论数:0

对大量转载贴识别算法的研究

要识别论坛中被大量转载的同一篇文章,初看起来不是一个很难的技术问题,只要生成所有文章的信息指纹,再将相同指纹分组就可以了。至于产生信息指纹的方式,最简单的是用MD5或者SHA等单向Hash函数,如果为了减少存储以及提高性能,同时可以容许一定误差,可以再利用BloomFilter。   但是...

2009-11-17 11:34:00

阅读数:975

评论数:0

情感分析(Sentiment Analysis)的难题--转

我们对在线文本进行文本挖掘的任务之一,就是进 行情感分析(SentimentAnalysis),即分析发贴人对某个对象的态度是正面还是负面。这个过程当然不是仅仅查找"好","坏"这些关键字那 么简单,有时候相似度很高的句子,却反映了截然不同的态度,譬如下面这...

2009-11-17 11:28:00

阅读数:1450

评论数:0

文本挖掘技术在CIC的应用--转载

数据挖掘(Data Mining)已经不是一个新鲜的概念,“尿布和啤酒” 这一经典案例也被很多人津津乐道: 美国一家大型超市利用数据挖掘技术来分析他们的销售纪录,居然发现尿布和啤酒的销售量之间存在相当大的关联性。经过进一步的调查,找到了产生这个现象的原 因,原来在美国,负责为孩子购买尿布的年轻父亲...

2009-11-17 11:24:00

阅读数:1204

评论数:0

自然语言理解

发信人: walt (瓦尔特), 信区: AI 标 题: 自然语言理解 发信站: 国家智能中心曙光站 (Fri Oct 10 14:02:46 1997) 广义的“语言”是任何一种有结构的符号系统。人类的语言、手势、体态, 机 器的指令、命令、程序, 排版时的格式说明, 公路上的交通图标…...

2009-11-16 20:08:00

阅读数:2126

评论数:2

概率、信息和熵

以前写过一篇关于最大熵模型的读书笔记。刚翻陈家鼎和郑忠国两位老师合编的教材《概率与统计》(北大出版社,2007),看到关于信息熵的详细数学表述,不妨转述一下,算是不在场的课堂笔记。 概率与信息 事件A的概率P(A)是A发生可能性的大小的度量。 问题:A的发生带给我们多大的信息呢? 结论 ...

2009-11-10 18:54:00

阅读数:3598

评论数:1

最大熵模型:读书笔记

                                  胡江堂,北京大学软件学院 1. 物理学的熵 2. 信息论的熵 3. 熵和主观概率(一个简单注释 4. 熵的性质 4.1. 当所有概率相等时,熵取得最大值 4.2. 小概率事件发生时携带的信息量比大概...

2009-11-10 18:43:00

阅读数:3615

评论数:2

数学之美 系列十六 (下)- 不要把所有的鸡蛋放在一个篮子里 最大熵模型

数学之美 系列十六 (下)- 不要把所有的鸡蛋放在一个篮子里 最大熵模型我们上次谈到用最大熵模型可以将各种信息综合在一起。我们留下一个问题没有回答,就是如何构造最大熵模型。我们已经所有的最大熵模型都是指数函数的形式,现在只需要确定指数函数的参数就可以了,这个过程称为模型的训练。最原始的最大熵模型的...

2009-11-10 14:28:00

阅读数:1239

评论数:0

布隆过滤器(Bloom Filter)

在日常生活中,包括在设计计算机软件时,我们经常要判断一个元素是否在一个集合中。比如在字处理软件中,需要检查一个英语单词是否拼写正确(也就是要判断它是否在已知的字典中);在 FBI,一个嫌疑人的名字是否已经在嫌疑名单上;在网络爬虫里,一个网址是否被访问过等等。最直接的方法就是将集合中全部的元素存在计...

2009-11-10 13:34:00

阅读数:875

评论数:0

矩阵运算和文本处理中的分类问题

我在大学学习线性代数时,实在想不出它除了告诉我们如何解线性方程外,还能有什么别的用途。关于矩阵的许多概念,比如特征值等等,更是脱离日常生活。后来在数值分析中又学了很多矩阵的近似算法,还是看不到可以应用的地方。当时选这些课,完全是为了混学分的学位。我想,很多同学都多多少少有过类似的经历。直到后来长期...

2009-11-10 13:29:00

阅读数:1251

评论数:0

数学之美 系列十六(上) 不要把所有的鸡蛋放在一个篮子里 -- 谈谈最大熵模型

数学之美 系列十六(上) 不要把所有的鸡蛋放在一个篮子里 -- 谈谈最大熵模型 [我们在投资时常常讲不要把所有的鸡蛋放在一个篮子里,这样可以降低风险。在信息处理中,这个原理同样适用。在数学上,这个原理称为最大熵原理(the maximum entropy principle)。这是一个非常有意思...

2009-11-05 22:19:00

阅读数:946

评论数:0

数学之美 系列十五 繁与简 自然语言处理的几位精英

数学之美 系列十五 繁与简 自然语言处理的几位精英 我在数学之美系列中一直强调的一个好方法就是简单。但是,事实上,自然语言处理中也有一些特例,比如有些学者将一个问题研究到极致,执著追求完善甚至可以说完美的程度。他们的工作对同行有很大的参考价值,因此我们在科研中很需要这样的学者。在自然语言处理方...

2009-11-05 22:05:00

阅读数:909

评论数:0

数学之美 十四 谈谈数学模型的重要性

数学之美 十四 谈谈数学模型的重要性 [注:一直关注数学之美系列的读者可能已经发现,我们对任何问题总是在找相应的准确的数学模型。为了说明模型的重要性,今年七月份我在 Google 中国内部讲课时用了整整一堂课来讲这个问题,下面的内容是我讲座的摘要。] 在包括哥白尼、伽利略和牛顿在内的所有...

2009-11-05 21:56:00

阅读数:962

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭