cowboy_wz-CSDN博客

原创搜索引擎技术揭密：中文分词技术

信息的飞速增长，使搜索引擎成为人们查找信息的首选工具，Google、百度、中国搜索等大型搜索引擎一直是人们讨论的话题。随着搜索市场价值的不断增加，越来越多的公司开发出自己的搜索引擎，阿里巴巴的商机搜索、8848的购物搜索等也陆续面世，自然，搜索引擎技术也成为技术人员关注的热点。搜索引擎技术的研究，国外比中国要早近十年，从最早的Archie，到后来的Excite，以及altvista、ov

2009-11-17 21:21:00 1645

原创查全率[召回率]与精度[查准率] 之辨析

查全率[召回率]与精度[查准率] 之辨析: 召回率(recall rate)和精度(precision)定义：从一个大规模数据集合中检索文档的时，可把文档分成四组－系统检索到的相关文档（Ａ） - 系统检索到的不相关文档（Ｂ） - 相关但是系统没有检索到的文档（Ｃ） - 不相

2009-11-17 21:13:00 5210

原创水木-机器学习推荐论文和书籍

发信人: zibuyu (得之我幸), 信区: NLP 标题: 机器学习推荐论文和书籍发信站: 水木社区 (Thu Oct 30 21:00:39 2008), 站内我们组内某小神童师弟通读论文，拟了一个机器学习的推荐论文和书籍列表。经授权发布在这儿，希望对大家有用。:) ＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝基本模

2009-11-17 17:10:00 8481 2

原创如何选择合适的期刊投稿-转载

当然，最科学的选择期刊发表你的文章的方法是根据你的文章的学术水平而定，我不想在此方面赘述，因为学科各不相同，期刊浩如烟海，实在无法总结出有用的东西。其实，实验工作结束，写文章之前，你就应该规划你的文章的去向，当然有许多牛人在计划实验之前就定下了文章的去向，也就是说这些文章是为特定的期刊“量身定做”的，当然录用几率非常之高！然而，对于新人们，比如我自己，多数情况下是先做了一个自己觉得有意思的

2009-11-17 17:02:00 2230

原创一稿多投与重复发表

案例分析：一稿多投与重复发表我本以为一稿多投(Duplicate Submission)与重复发表(Redundant (or Duplicate) Publication)的是同一回事, 可仔细回想和分析一下，发现有些“一稿多投”的作者还真的没有“重复发表”的动机。作为编辑，我们时常遇到作者收到退改意见后坚持要求撤稿的情况，不久前，一位博士生作者坦白自己是一稿四投，并且是奉“老板”之意

2009-11-17 16:54:00 16625 2

原创优秀论文的要素

优秀论文的要素： 1、正确的选题 2、合适的切入点 3、简洁明了 4、说清自己的贡献 5、可靠的/可重现的结果 6、可重复的过程 7、好的文章结构和逻辑流程 8、精选的参考文献误区： 1、Idea越多越好 2、一味追求革命性的，突破性的成果 3、数学、理论和公式越复杂越好——显示自己的聪明 4、

2009-11-17 16:43:00 908

原创在阅读文献中提高升华自己--转

最近，在一次偶然的机会中发现在地学板块中有一个活动叫做：读文献, 写心得, 得金币的板块，于是激发了自己阅读文献的动力，在这个月内，也读了有几十篇外文文献，非常收益，现在把自己的一些感想和心得拿出来与大家分享！ 1、首先要明白自己现阶段的主要科研目标是什么，打算做或正在做哪个相关领域的科研项目，这个要稍微具体点，因为这是自己阅读文献的前提。只有有了这个具体的目标，阅读文献才会有一个大致方向，

2009-11-17 16:39:00 1173

原创生物信息学（Bioinformatics）

http://www.lmbe.seu.edu.cn/biology/bess/biology/chapt11/11-1.htm生物信息学（Bioinformatics）这个名词有许多不同的定义。从字面上来看，生物信息学是将信息科学应用于生物学。生物信息学广义的概念是指应用信息科学研究生物体系和生物过程中信息的

2009-11-17 16:33:00 3889

原创对大量转载贴识别算法的研究

要识别论坛中被大量转载的同一篇文章，初看起来不是一个很难的技术问题，只要生成所有文章的信息指纹，再将相同指纹分组就可以了。至于产生信息指纹的方式，最简单的是用MD5或者SHA等单向Hash函数，如果为了减少存储以及提高性能，同时可以容许一定误差，可以再利用BloomFilter。但是结合实际情况看一下，就能发现产生这种类别文章的指纹不能简单的用MD5产生，因为当一篇文章被大量复制转载

2009-11-17 11:34:00 1127

原创情感分析(Sentiment Analysis)的难题--转

我们对在线文本进行文本挖掘的任务之一，就是进行情感分析(SentimentAnalysis)，即分析发贴人对某个对象的态度是正面还是负面。这个过程当然不是仅仅查找"好"，"坏"这些关键字那么简单，有时候相似度很高的句子，却反映了截然不同的态度，譬如下面这两句话 "这瓶洗发水，适合头发很干的人用" "用了这瓶洗发水，头发变得很干" 两个句子中的主要成分都差不多，"洗发水"，"头发"，"很干

2009-11-17 11:28:00 1753

原创文本挖掘技术在CIC的应用--转载

数据挖掘(Data Mining)已经不是一个新鲜的概念，“尿布和啤酒” 这一经典案例也被很多人津津乐道: 美国一家大型超市利用数据挖掘技术来分析他们的销售纪录，居然发现尿布和啤酒的销售量之间存在相当大的关联性。经过进一步的调查，找到了产生这个现象的原因，原来在美国，负责为孩子购买尿布的年轻父亲们，很多时候会顺带着给自己买些啤酒。沃尔马随后采取的措施是，将尿布和啤酒并排放在一起，结果两种产品的

2009-11-17 11:24:00 1397

原创自然语言理解

发信人: walt (瓦尔特), 信区: AI 标题: 自然语言理解发信站: 国家智能中心曙光站 (Fri Oct 10 14:02:46 1997) 广义的“语言”是任何一种有结构的符号系统。人类的语言、手势、体态, 机器的指令、命令、程序, 排版时的格式说明, 公路上的交通图标……都属于这种广义的 “语言”。其中, 最重要的两类语言, 是自然语言和形式语言。狭义的“语言”

2009-11-16 20:08:00 2915 2

原创 cover letter 转

1、什么是cover letter？指的是投稿信 2、cover letter的内容主要包括那些？应该简述所投稿件的核心内容、主要发现和意义，拟投期刊，对稿件处理有无特殊要求等（如“not to review” list）。另外，请附上主要作者的中文姓名、通讯地址、电话、传真和e-mail地址。此外有的杂志要求推荐几位审稿人及其联系方式。以及谁

2009-11-14 00:18:00 1724

原创卷积及拉普拉斯变换的通俗解释-转

卷积(convolution, 另一个通用名称是德文的Faltung)的名称由来，是在于当初定义它时，定义成 integ(f1(v)*f2(t-v))dv，积分区间在0到t之间。举个简单的例子，大家可以看到，为什么叫“卷积”了。比方说在(0，100)间积分，用简单的辛普生积分公式，积分区间分成100等分，那么看到的是f1(0)和f2(100)相乘，f1(1

2009-11-13 15:46:00 7604

原创思想开放-学数学之人必备的特质(转载）

读了这许多年数学，越来越发现思想开通是学数之人的一种必备特质。这里的「思想开通」是指脑筋灵活，不宥于一种思维定势，不墨守陈规，随时准备接受新概念或意念。虽然学习其它学科往往也需要具备这种特质，但由于数学是最抽象的学科，学习数学几乎就等于做「脑力体操」，需要不断动脑筋，因此便特别需要上述这种特质。以前曾听人说过，学数之人思想呆板，因为他们一切依循既定的公式。上述看法是

2009-11-13 15:34:00 3590 2

原创极大似然估计的直观解释-转

教材云：极大似然估计法是求估计值的另一种方法，最早由高斯(R.A,Gauss)提出，后来为费史（Fisher)在1912年重新提出，并证明该方法的一些性质．它是建立在极大似然原理基础上的一个统计方法．极大似然原理：一个随机试验有若干种可能的结果Ａ，Ｂ，Ｃ，…．若在一次试验中，结果A出现，则一般认为试验条

2009-11-13 15:09:00 1894

原创从概率论到Markov Chain Monte Carlo（MCMC）-- 转

大学本科时代开始学习的概率论，从变着花样从箱子里取不同颜色的球计算概率，到计算各种离散或连续的随机分布期望、方差，再高深点就是利用生成函数求期望和方差，再就是估计理论，包括点

2009-11-13 15:02:00 3563 1

原创国家自然科学基金(NCFS)申请标书写作全攻略(转载自小木虫）

指导思想篇 1、追求卓越，在知识上要绝对专业，坚决反对侥幸心理。 2、相信NSFC申请是

2009-11-13 14:56:00 10585

原创如何发表高水平论文(转载）

SCI/EI/ISTP/一级期刊的基本知识; 如何利用数据库和查找文献；如何寻找领域前沿；

2009-11-13 14:53:00 3456

原创图˙谱˙马尔可夫过程˙聚类结构（转自MIT的中国留学生博客）

题目中所说到的四个词语，都是Machine Learning以及相关领域中热门的研究课题。表面看属于不同的topic，实际上则是看待同一个问题的不同角度。不少文章论述了它们之间的一些联系，让大家看到了这个世界的奇妙。从图说起这里面，最简单的一个概念就

2009-11-13 14:38:00 2040

原创数学趣闻

这是波兰著名数学家谢尔品斯基的真实故事。有一天，他要搬家，他的夫人把行李拿出来以后对他说：“我去叫辆出租车，你在这儿看好行李，总共有10个箱子。” 过一会儿，他的夫人回来了，他对夫人说道：“刚才你说有10个箱子，可是我数了只有9个箱子。” “不对，肯定是10个。” “说什么呢，我再数一遍，0，1，2，3……” 有几个人在山谷旅行，由于他们

2009-11-13 14:32:00 2189 1

原创数学学科分类标准

一份中国学科分类国家标准，看看，就一个数学中的一个分支一个人一辈子都研究不完。其中也说明了，应用数学归为每个具体应用学科里面。除了专门数学专业的，其他专业的也只是学了其中在本学科需要的一小部分而已。 110 数学 a.. 110.11 数学史 b.. 110.14 数理逻辑与数学基础 a.. 110.1410 演绎逻辑学亦称符号逻辑学

2009-11-13 14:12:00 2239

原创算法心经.数学的应用.积分的应用

算法心经：前几天，一个好友告诉我，他要写一本书，叫《编程低手箴言》，我马上管他要地址去看看，出乎意料，写得比我想象得好。后来我就自己在想，是不是也应该把我平时的一些心得写出来呢？越越冲动，既然有了想法，那内容选什么呢？既然讲给别人听，就要拿自己拿手的，也就是最有把握的，要不一贴出来被人们拍死就麻烦了。所以，我把题材选为了讲算法，名字嘛，就姑且叫《算法心经》好了。写出点东

2009-11-13 14:01:00 965

原创算法心经:数学的应用:概率的应用

终于写到重头戏了，如果说前面的微分积分还属于基础理论，而与我们日常的算法设计距离有点远的话，那么后面的概率、矩阵、空间立体几何，可就是和应用息息相关了。

2009-11-13 13:35:00 1571

原创算法心经.数学的应用.微分的应用

2009-11-13 13:20:00 1165

原创数学基础

一.整数：integer，whole number1.因子：factor or divisorIf x and y are integers and x≠0,x is a divisor (factor) of y provided that y=xn for some integer n. In this case y is also said t

2009-11-10 22:33:00 830

原创数学精彩摘录

1. 所谓根的公式，就是把代数方程式的根用其系数经过加、减、乘、除、开方根表示出来的方法。如果我们可以求得一个（数字或文字）方程式的根的公式，我们就说这个方程式有根式解。 2.代数化的趋势，希腊数学的主体是几何学，代数的问题往往也要用几何方法去论证。17世纪的代数学比几何学占有更重要的位置，它冲破希腊人的框框，进一步向符号代数转化，几何问题常常反过来用代数方法去解决。 3. 向量是

2009-11-10 22:20:00 1154

原创升华思想境界，走出博士的专家路线【转帖】

尽管已经Ph.D快两年了，一向不缺自信的我却屡次羞于向他人提起博士生之身份。前年的秋天到现在，焦虑与麻木无数次轮回，口腔经常无端一溃千里，我无法给自己读博寻找一个合理的辩护。来到上交集训，和很多优秀的老师和博士交流，尽管不到半月，却感觉收获了很多，无论是基础理论还是前沿研究方向和方法。心态开始好转，看到此文感触颇深，感谢作者的分享！想想不久即将离校，希望能写下自己一些读博感受，

2009-11-10 22:12:00 1157 1

原创蒙特卡罗法

MC法与竞争性随即过程的计算密切相关，正在学习中，那位能否对电脑围棋中的MC方法做深入一点的介绍呢？尤其是看懂英文论文的斑竹们。能否给些提示。我现在给出自己学习一般MC法的入门级理解：蒙特卡罗法的解决问题思路是这样的： 1.一种随机事件可能有理论上的概率计算方法； 2.对这种随机事件还可以通过实验的方法，实际测量随机事件出现的频率； 3.当实验的

2009-11-10 21:57:00 1785 1

原创李开复开发的国际象棋软件

位于匹茨堡的卡内基梅隆大学，是全球最有名的从事计算机科学研究的大学，当时全美唯一获得过计算机科学诺贝尔奖的人就在卡内基梅隆大学计算机学院，三十位图林奖得主中有五位也在卡内基梅隆大学。在当时，每年几乎有1000人报考该校，而最终只有 30人得以如愿。在李开复之前，后来因为开发出深蓝电脑打败世界国际象棋大师卡尔波夫而一举成名的许峰雄早先一年成为该校的第一位中国学生。卡内基梅隆大学计算机学院有

2009-11-10 21:53:00 2137

原创在计算机领域做研究的一些想法-- 转载

本文关于米国CS计算机的介绍实在是太可爱了，不得不收藏，感谢 Xi Tan # 前言 # 1. 讨论一下计算机领域的牛圈和‘带头大哥’； 2. 讨论一下科研方法； 3. 讨论一下计算机领域的学术论文（会议、期刊）； # 第一章 # 计算机的大牛90%以上都在美国，所以只讲讲美国的CS。别的国家没什么太大的参考意义（英国、法国、匈牙利、日本、香港、新加坡、大陆、加拿大），不过还是说两句：

2009-11-10 21:44:00 2031 1

原创备忘录之主成分分析

备忘录之主成分分析

2009-11-10 21:07:00 1431

原创洗衣机，数据挖掘的物理模型

洗衣机，数据挖掘的物理模型昨天整洗衣机。看着大大小小新新旧旧，机身多赫然印一大字： Fuzzy Fuzzy Logic，模糊逻辑控制，大概说"只需按下启动键，从选择程序到漂洗、脱水，实现了全自动的控制。这种模糊逻辑控制的洗衣机可以自动检测洗衣内的衣物重量，从而自动选择水位和洗涤程序，这样不但大大简化了操作步骤，而且可以比较准确的配置水位和洗涤时间，节约了能源。" 看了这些就乐了。

2009-11-10 20:28:00 3070

原创 PageRank行将过时搜索引擎遭遇范式转移

曾被喻为创新机器的Google，连同盛极一时的古格尔教（Google宗教），正在全球范围内经历一个不可逆转的去魅过程。Google还在创新吗？面对诸多创意迭出的第三代搜索引擎的出现，PageRank 算法——Google所赖以成名的利器，似乎并没有给我们提供一个比其他搜索引擎更相关或者呈现方式更好的搜索结果。比如说，在Google搜索框输入关键字查询，搜索结果往往会是数目多到目不暇接的一个个网

2009-11-10 19:49:00 1135

原创决策树的构造——一个手工例子

决策树的构造——一个手工例子这个数据集来自Mitchell的机器学习，叫做是否去打网球play-tennis,以下数据仍然是从带逗号分割的文本文件，复制到纪事本，把后缀直接改为.csv就可以拿Excel打开： *play-tennis data，其中6个变量依次为：编号、天气{Sunny、Overcast、Rain}、温度{热、冷、适中}、湿度{高、正常}、风力{强、弱}以及最后是否去玩的

2009-11-10 19:34:00 2138

原创数据挖掘——我们能从股市数据得出什么，以及一些算法

数据挖掘——我们能从股市数据得出什么，以及一些算法 //一个备忘录了，写给我们金融信息系统项目小组的同学。没有列出参考文献，因为都是大白话。有些删节。数据挖掘／机器学习大概处理以下几个问题：分类，这是有很多非常成熟的算法，非常直观，按照一个分类属性，把样本分为不同的类别。聚类，聚类与分类的差别在于，分类分析有一个分类属性作为输出，比如“好”、“坏”之类，但聚类没有。聚类

2009-11-10 19:20:00 4132

原创数据采集策略：数据挖掘与统计学的一个区别

数据采集策略：数据挖掘与统计学的一个区别这个观点来自Hand等人的《数据挖掘原理》（机工，2003）。说数据挖掘是对已经存在的数据进行分析（比如说“[原有]数据库中的知识发现”,KDD），而统计会为了回答某一个特定问题而专门去采集数据。也就是说，数据挖掘所分析处理的数据，不是为挖掘本身而收集的。企业为了别的目的建立数据库，为了挖掘，它再从数据库的基础上建立起为分析服务的数据仓库。转

2009-11-10 19:04:00 2966

原创三个有名的决策树算法：CHAID、CART和C4.5

三个有名的决策树算法：CHAID、CART和C4.5 CHAID、CART和C4.5大概是决策树算法丛林中最有名，商业上运用也也最成功的算法了。CHAID (chi-squared automatic interaction detection，卡方自动交互检测)的前身是AID，主要特征是多向分叉，前向修剪，其标准如名所示，就是卡方检测；另外，CHAID只能处理类别型的输入变量，因此

2009-11-10 19:00:00 26447

原创概率、信息和熵

以前写过一篇关于最大熵模型的读书笔记。刚翻陈家鼎和郑忠国两位老师合编的教材《概率与统计》（北大出版社，2007），看到关于信息熵的详细数学表述，不妨转述一下，算是不在场的课堂笔记。概率与信息事件A的概率P(A)是A发生可能性的大小的度量。问题：A的发生带给我们多大的信息呢？结论 P(A)越大，则A发生带来的信息越少；反之，P(A)越小，则A的发生带来的信息越大。例子:有人对你

2009-11-10 18:54:00 4679 1