自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

ella found

beautiful sunshine

  • 博客(36)
  • 收藏
  • 关注

转载 数学之美 系列十九 - 马尔可夫链的扩展 贝叶斯网络 (Bayesian Networks)

数学之美 系列十九 - 马尔可夫链的扩展 贝叶斯网络 (Bayesian Networks)2007年1月28日 下午 09:53:00uT("time116999293254246877");发表者:Google 研究员,吴军 我们在前面的系列中多次提到马尔可夫链 (MarkovChain),它描述了一种状态序列,其每个状态值取决于前面有限个状态。这种模型,对很多实际问题

2007-04-05 19:05:00 809

转载 数学之美 系列十八 - 矩阵运算和文本处理中的分类问题

数学之美 系列十八 - 矩阵运算和文本处理中的分类问题2007年1月1日 下午 03:10:00uT("time116763611149553424");发表者:Google 研究员,吴军 我在大学学习线性代数时,实在想不出它除了告诉我们如何解线性方程外,还能有什么别的用途。关于矩阵的许多概念,比如特征值等等,更是脱离日常生活。后来在数值分析中又学了很多矩阵的近似算法,还是

2007-04-05 19:04:00 825

转载 Warning: Cannot modify header information - headers already sent by (output started at...

以下内容转载自http://yskin.net的blogWarning: Cannot modify header information - headers already sent by (output started at2006.09.07 1:42 pm in WordPress. 1,442字 标签:unicode, WordPress. 今天在WordPress中文论

2007-01-09 15:01:00 11826 6

转载 Linux下面的时间设置

Linux时钟分为系统时钟(System Clock)和硬件(Real Time Clock,简称RTC)时钟。系统时钟是指当前Linux Kernel中的时钟,而硬件时钟则是主板上由电池供电的时钟,这个硬件时钟可以在BIOS中进行设置。当Linux启动时,硬件时钟会去读取系统时钟的设置,然后系统时钟就会独立于硬件运作。Linux中的所有命令(包括函数)都是采用的系统时钟设置。在Linux中,

2006-12-17 23:04:00 1714

转载 Linux命令速查

一. 启动,关机,登入,登出相关命令[login] 登录[logout] 登出[exit] 登出[shutdown] 停止系统[halt] 停止系统[reboot] 重启动[poweroff] 切断电源[sync] 把内存里的内容写入磁盘[lilo] 安装lilo启动管理程序[grub] 安装lilo启动管理程序二. Shell相关命令[chsh] 切换Shell[history] 显示命令履

2006-12-17 22:54:00 686

转载 数学之美 系列十七 闪光的不一定是金子 谈谈搜索引擎作弊问题(Search Engine Anti-SPAM)

2006年11月28日 上午 03:18:00uT("time116465599638733502");Google 研究员 吴军自从有了搜索引擎,就有了针对搜索引擎网页排名的作弊(SPAM)。以至于用户发现在搜索引擎中排名靠前的网页不一定就是高质量的,用句俗话说,闪光的不一定是金子。搜索引擎的作弊,虽然方法很多,目的只有一个,就是采用不正当手段提高自己网页的排名。早期

2006-12-14 10:55:00 797

转载 数学之美 系列十六(下)- 不要把所有的鸡蛋放在一个篮子里 最大熵模型

2006年11月16日 上午 06:50:00uT("time116362474398958433");发表者:Google 研究员,吴军 我们上次谈到用最大熵模型可以将各种信息综合在一起。我们留下一个问题没有回答,就是如何构造最大熵模型。我们已经所有的最大熵模型都是指数函数的形式,现在只需要确定指数函数的参数就可以了,这个过程称为模型的训练。最原始的最大熵模型的训练方法是

2006-12-14 10:54:00 757

转载 数学之美 系列十六(上) 不要把所有的鸡蛋放在一个篮子里 -- 谈谈最大熵模型

10/08/2006 07:27:00 上午发表者:Google研究员,吴军 [我们在投资时常常讲不要把所有的鸡蛋放在一个篮子里,这样可以降低风险。在信息处理中,这个原理同样适用。在数学上,这个原理称为最大熵原理(the maximum entropy principle)。这是一个非常有意思的题目,但是把它讲清楚要用两个系列的篇幅。]前段时间,Google中国研究院的刘骏总监谈到在网

2006-12-13 23:15:00 790

转载 数学之美 系列十五 繁与简 自然语言处理的几位精英

8/23/2006 11:22:00 下午发表者:吴军,Google研究员 我在数学之美系列中一直强调的一个好方法就是简单。但是,事实上,自然语言处理中也有一些特例,比如有些学者将一个问题研究到极致,执著追求完善甚至可以说完美的程度。他们的工作对同行有很大的参考价值,因此我们在科研中很需要这样的学者。在自然语言处理方面新一代的顶级人物麦克尔 · 柯林斯 (Michael Collins

2006-12-13 23:11:00 604

转载 数学之美 系列十四 谈谈数学模型的重要性

8/09/2006 09:12:00 上午发表者:吴军,Google 研究员 [注:一直关注数学之美系列的读者可能已经发现,我们对任何问题总是在找相应的准确的数学模型。为了说明模型的重要性,今年七月份我在Google中国内部讲课时用了整整一堂课来讲这个问题,下面的内容是我讲座的摘要。〕在包括哥白尼、伽利略和牛顿在内的所有天文学家中,我最佩服的是地心说的提出者托勒密。虽然天文学起源于古埃

2006-12-13 23:09:00 732

转载 数学之美 系列十三 信息指纹及其应用

8/03/2006 11:17:00 上午发表者:吴军,Google研究员 任何一段信息文字,都可以对应一个不太长的随机数,作为区别它和其它信息的指纹(Fingerprint)。只要算法设计的好,任何两段信息的指纹都很难重复,就如同人类的指纹一样。信息指纹在加密、信息压缩和处理中有着广泛的应用。我们在图论和网络爬虫一文中提到,为了防止重复下载同一个网页,我们需要在哈希表中纪录已经访问过

2006-12-13 22:59:00 551

转载 数学之美 系列十二 - 余弦定理和新闻的分类

7/20/2006 10:12:00 上午发表者:吴军,Google研究员 余弦定理和新闻的分类似乎是两件八杆子打不着的事,但是它们确有紧密的联系。具体说,新闻的分类很大程度上依靠余弦定理。Google的新闻是自动分类和整理的。所谓新闻的分类无非是要把相似的新闻放到一类中。计算机其实读不懂新闻,它只能快速计算。这就要求我们设计一个算法来算出任意两篇新闻的相似性。为了做到这一点,我们需要

2006-12-13 18:06:00 694

转载 数学之美 系列十一 - Google 阿卡 47 的制造者阿米特.辛格博士

7/10/2006 09:52:00 上午发表者:Google研究员,吴军 枪迷或者看过尼古拉斯.凯奇(Nicolas Cage)主演的电影“战争之王”(Lord ofWar)的人也许还记得影片开头的一段话:(在所有轻武器中,)最有名的是阿卡 47( AK47)冲锋枪(也就是中国的五六式冲锋枪的原型),因为它从不卡壳、从不损坏、可在任何环境下使用、可靠性好、杀伤力大并且操作简单。我认为

2006-12-13 17:33:00 857

转载 数学之美 系列十 有限状态机和地址识别

7/05/2006 09:09:00 上午发表者:吴军,Google研究员 地址的识别和分析是本地搜索必不可少的技术,尽管有许多识别和分析地址的方法,最有效的是有限状态机。一个有限状态机是一个特殊的有向图(参见有关图论的系列),它包括一些状态(节点)和连接这些状态的有向弧。下图是一个识别中国地址的有限状态机的简单的例子。每一个有限状态机都有一个启始状态和一个终止状态和若干中间状态。每一

2006-12-13 14:07:00 639

转载 源自Quake3的快速求InvSqrt()函数

"人们很早就在Quake3源代码中发现了如下的C代码,它可以快速的求1/sqrt(x),在3D图形向量计算方面应用很广。float InvSqrt(float x){    float xhalf=0.5f*x;    long i=*(long*)&x;    i=0x5f3759df - (i>>1);    x=*(float *)&i;    x=x*(1.5f-xhalf*x*x);  

2006-12-10 00:04:00 1085

原创 纪念我下午失去的两小时

 IE返回的网页编码是篡改过的,根本就不是原来网站返回的实际编码,上次在编写的时候就注意到了,想不到下午一时糊涂,一直在改程序,怎么没想到是数据源出了问题,浪费了两小时,我ft,以后开发此类咚咚,还是使用像firefox之类的东西好,虽然后者占用很大资源。本来这两小时是想用来看PHP的,现在搞得眼睛不舒服....实在不值 

2006-12-09 14:28:00 533

转载 [C#]class 与 struct 的区别

类与结构的实例比较  类与结构的差别  如何选择结构还是类  一.类与结构的示例比较:  结构示例:   public struct Person   {   string Name;   int  height

2006-11-28 22:31:00 936 2

转载 [C#]const 和 readonly 的区别

const 的概念就是一个包含不能修改的值的变量。常数表达式是在编译时可被完全计算的表达式。因此不能从一个变量中提取的值来初始化常量。如果 const int a = b+1;b是一个变量,显然不能再编译时就计算出结果,所以常量是不可以用变量来初始化的。readonly 允许把一个字段设置成常量,但可以执行一些运算,可以确定它的初始值。因为 readonly 是在计算时执行的,当然它可以用某些

2006-11-28 22:27:00 729

转载 自动备份Mysql数据库脚本

一、对于Windows主机==============假想环境:MySQL   安装位置:C:/MySQL论坛数据库名称为:bbsMySQL root  密码:123456数据库备份目的地:D:/db_backup/ 程序代码@echo offC:/MySQL/bin/mysqladmin -u root --password=123456 shutdownC:/MySQL/bin/m

2006-11-14 23:27:00 703

转载 MySQL新强大特性——事件

MySQL的事件特性是一个相当有用的特性,特别对于MySQL单机和集群的数据库管理员DBA,相信是DBA必定要掌握的知识。也肯定当MySQL的DBA学习完了这个特性后,将这个特性用好,可以给自己省下60%的工作量。正文在MySQL栏目中,已经做成PDF供大家下载了,地址是:http://www.blogjava.net/chenpengyi/articles/77933.html下面是一些内容节选

2006-11-14 17:03:00 569

原创 The differences between BLOB and TEXT

A BLOB is a binary large object that can hold a variable amount of data. The four BLOB types are TINYBLOB, BLOB, MEDIUMBLOB, and LONGBLOB. These differ only in the maximum length of the values they ca

2006-11-14 12:43:00 445

转载 数学之美 系列九 -- 如何确定网页和查询的相关性

发表者:吴军,Google 研究员 [我们已经谈过了如何自动下载网页、如何建立索引、如何衡量网页的质量(Page Rank)。我们今天谈谈如何确定一个网页和某个查询的相关性。了解了这四个方面,一个有一定编程基础的读者应该可以写一个简单的搜索引擎了,比如为您所在的学校或院系建立一个小的搜索引擎。]我们还是看上回的例子,查找关于“原子能的应用”的网页。我们第一步是在索引中找到包含这三个词的网页(详见关

2006-11-13 21:55:00 419

转载 数学之美 系列八-- 贾里尼克的故事和现代语言处理

发表者:Google 研究员,吴军 读者也许注意到了,我们在前面的系列中多次提到了贾里尼克这个名字。事实上,现代语音识别和自然语言处理确实是和它的名字是紧密联系在一起的。我想在这回的系列里,介绍贾里尼克本人。在这里我不想列举他的贡献,而想讲一讲他作为一个普普通通的人的故事。这些事要么是我亲身经历的,要么是他亲口对我讲的。弗莱德里克.贾里尼克(Fred Jelinek)出生于捷克一个富有的犹太家庭。

2006-11-13 21:54:00 520

转载 数学之美 系列七 -- 信息论在信息处理中的应用

发表者:吴军, Google 研究员 我们已经介绍了信息熵,它是信息论的基础,我们这次谈谈信息论在自然语言处理中的应用。先看看信息熵和语言模型的关系。我们在系列一中谈到语言模型时,没有讲如何定量地衡量一个语言模型的好坏,当然,读者会很自然地想到,既然语言模型能减少语音识别和机器翻译的错误,那么就拿一个语音识别系统或者机器翻译软件来试试,好的语言模型必然导致错误率较低。这种想法是对的,而且今天的语音

2006-11-13 21:50:00 390

转载 数学之美 系列六 -- 图论和网络爬虫 (Web Crawlers)

发表者: 吴军,Google 研究员 [离散数学是当代数学的一个重要分支,也是计算机科学的数学基础。它包括数理逻辑、集合论、图论和近世代数四个分支。数理逻辑基于布尔运算,我们已经介绍过了。这里我们介绍图论和互联网自动下载工具网络爬虫 (Web Crawlers) 之间的关系。顺便提一句,我们用 Google Trends 来搜索一下“离散数学”这个词,可以发现不少有趣的现象。比如,武汉、哈尔滨、合

2006-11-13 21:48:00 548

转载 数学之美 系列五 -- 简单之美:布尔代数和搜索引擎的索引

发表者: 吴军,Google 研究员 [建立一个搜索引擎大致需要做这样几件事:自动下载尽可能多的网页;建立快速有效的索引;根据相关性对网页进行公平准确的排序。我们在介绍 Google Page Rank (网页排名) 时已经谈到了一些排序的问题,这里我们谈谈索引问题,以后我们还会谈如何度量网页的相关性,和进行网页自动下载。]世界上不可能有比二进制更简单的计数方法了,也不可能有比布尔运算更简单的运算

2006-11-13 21:45:00 673

转载 数学之美 系列四 -- 怎样度量信息?

发表者:吴军,Google 研究员前言: Google 一直以 “整合全球信息,让人人能获取,使人人能受益” 为使命。那么究竟每一条信息应该怎样度量呢?信息是个很抽象的概念。我们常常说信息很多,或者信息较少,但却很难说清楚信息到底有多少。比如一本五十万字的中文书到底有多少信息量。直到 1948 年,香农提出了“信息熵”(shāng) 的概念,才解决了对信息的量化度量问题。一条信息的信息量大小和它的

2006-11-13 21:44:00 542

转载 数学之美 系列三 -- 隐含马尔可夫模型在语言处理中的应用

发表者:吴军,Google 研究员前言:隐含马尔可夫模型是一个数学模型,到目前为之,它一直被认为是实现快速精确的语音识别系统的最成功的方法。复杂的语音识别问题通过隐含马尔可夫模型能非常简单地被表述、解决,让我不由由衷地感叹数学模型之妙。自然语言是人类交流信息的工具。很多自然语言处理问题都可以等同于通信系统中的解码问题 -- 一个人根据接收到的信息,去猜测发话人要表达的意思。这其实就象通信中,我们根

2006-11-13 21:41:00 397

转载 数学之美 系列二 -- 谈谈中文分词

发表者: 吴军, Google 研究员 谈谈中文分词----- 统计语言模型在中文处理中的一个应用上回我们谈到利用统计语言模型进行语言处理,由于模型是建立在词的基础上的,对于中日韩等语言,首先需要进行分词。例如把句子 “中国航天官员应邀到美国与太空总署官员开会。” 分成一串词:中国 / 航天 / 官员 / 应邀 / 到 / 美国 / 与 / 太空 / 总署 / 官员 / 开会。最容易想到的,也是最

2006-11-13 21:13:00 436

转载 数学之美 系列一 -- 统计语言模型

发表者: 吴军, Google 研究员 前言也许大家不相信,数学是解决信息检索和自然语言处理的最好工具。它能非常清晰地描述这些领域的实际问题并且给出漂亮的解决办法。每当人们应用数学工具解决一个语言问题时,总会感叹数学之美。我们希望利用 Google 中文黑板报这块园地,介绍一些数学工具,以及我们是如何利用这些工具来开发 Google 产品的。系列一: 统计语言模型 (Statistical Lan

2006-11-13 21:05:00 437

转载 6e的网页信噪比

 今天无聊闲逛,看了pennyliang的blog,发现了6e这个东西。然后顺藤摸瓜,逐渐发现这个搜索引擎提出的咚咚很好玩:)还有博索。Booso大概是一个博客日记的搜索引擎。根据使用指南,加了Refer代码在主页的侧栏里。到目前为止还没有什么结果。过几天再搜一下吧。 

2006-11-13 21:00:00 627

原创 C Java PHP Perl Python 的程序代码美化工具

C Java PHP Perl Python 的程序代码美化工具(Pretty Print Program/Source Code Beautifier)使用http://www.chedong.com/tech/indent_tools.html 

2006-11-13 11:18:00 497

转载 通过Google Maps Mashup能完成的25件事

通过Google Maps Mashup能完成的25件事,Google Maps所产生的创意无限,在生活中的价值也日渐展现,一起来看!1. 计算你旅行的行程或者折扣 http://www.gmap-pedometer.com2. 查看世界各地的时间 http://www.qlock.com/time/gmaps?map=13. 分享地球各地资讯 [中文] http://www.eemap.org

2006-11-13 10:58:00 474

转载 关于薪资问题你应该知道的

许多求职者将薪水和工资这两个概念混为一谈,认为薪水就是工资,只不过前者比后者听起来更洋气一点,事实并非如此。薪水简单地讲由工资、奖金和福利三部分构成。工资一般分固定工资和绩效工资,固定工资中一般(或部分)是岗位工资,然后会有一个岗位绩效工资(可以浮动,也可以不浮动)。第二块是奖金,奖金的发放和公司整体年度收益,部门的整体贡献和个人的业绩挂钩,因此是浮动的。还有一块是福利保险,就是国家规定的一些

2006-11-12 12:20:00 605

转载 提高查询速度方法总结

这个帖子主要总结提高查询速度的方法,涉及到减少连接数据库次数、建立索引、优化语句等方面。关于索引,推荐转载的这篇文章http://blog.csdn.net/dutguoyi/archive/2006/01/10/575617.aspx改善SQL语句的效率http://community.csdn.net/Expert/topic/5087/5087396.xml?temp=.345669

2006-11-12 11:39:00 473

转载 PowerDesigner设计数据库

本文档不讲述如何使用PowerDesigner,而是讲述如何将PowerDesigner的特点结合数据库设计的方法更好的设计一个数据库系统。采用PowerDesigner设计数据库PowerDesigner作为数据库建模和设计的CASE工具之一,在数据库系统开发中发挥着重要作用。运用PowerDesigner进行数据库设计,不但给人直观地理解模型,而且充分运用数据库的技术,优化数据库的

2006-11-10 23:15:00 934

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除