- 博客(50)
- 资源 (70)
- 收藏
- 关注
原创 【链接分享】第一期:科学太疯狂——在另一个星球上打印人类
最近的一些有趣链接的分享,包括科学,设计,机器学习等多个方面的。例如:1.在另一个星球上打印人类2.偷听到外星人的星际通信3.Yann LeCun在reddit上的问答4.卖萌的水果...
2014-06-05 20:37:44 1130
原创 语音识别技术简介
1自动语音识别简介语音识别技术,也可以称为自动语音识别(Automatic Speech Recognition,ASR),其任务是把人所发出的语音中词汇内容转换为计算机可读入的文本。语音识别技术是一种综合性的技术,它涉及到多个学科领域,如发声机理和听觉机理、信号处理、概率论和信息论、模式识别以及人工智能等等。目前,主流的大词汇量语音识别系统中通常采用基于统计模型的识别技术,典型的基于
2013-06-22 17:46:57 4925 3
转载 Google公开Spanner分布式数据库
在原子钟、GPS接收器的帮助下,Google创造了横跨地球的分布式数据库Spanner(PDF)。Spanner是第一种在全球范围内分发数据和支持外部一致性分布式事务的数据库系统,至今已开发了五年。Google的F1广告后端(AdWords)如今已切换到了Spanner,它能指定数据中心储存哪些附近用户需要频繁读取的数据,它还能根据冗余需要指定多少数据中心储存数据。Spanner的TrueTime
2012-09-23 19:48:31 1063
原创 c++中的类型转换(dynamic_cast, reinterpret_cast, static_cast ,const_cast)
在c++中提供了如下方式的类型转换:dynamic_cast (expression)reinterpret_cast (expression)static_cast (expression)const_cast (expression)dynamic_castdynamic_cast只处理指针和对象的引用。其目的是确保类型转换的结果是一个有效的完整的对象。
2012-09-09 19:11:11 728
原创 挖掘地图查询日志的价值
今天发现一篇google的论文,"Hyper-Local,Direction-Based Ranking of Places" 。利用它的想法可以充分地挖掘地图查询日志的价值。其中的核心思想是当用户在地图上发起一个从地点A到地点B的查询时,表明用户对地点B感兴趣,尤其是当离A比较近时。由于有大量的查询日志,可以从中发掘出很有用的信息。论文的摘要部分:Studies find that
2012-05-09 13:35:00 555
转载 怎样写一个拼写检查器
原文:http://norvig.com/spell-correct.html上个星期, 我的两个朋友 Dean 和 Bill 分别告诉我说他们对 Google 的快速高质量的拼写检查工具感到惊奇.比如说在搜索的时候键入[speling], 在不到 0.1 秒的时间内, Google 会返回: 你要找的是不是 [spelling]. (Yahoo! 和微软也有类似的功能).让我感到有点奇怪的是
2012-05-08 23:01:51 779
原创 段错误总结
段错误总结:segmentation fault (shortened to segfault), bus error或者access violation一般是由于试图访问CPU无法物理寻址的内存(access memory that the CPU cannot physically address)。Bus error:引起的原因:不存在的地址不对其的访问(unal
2012-05-08 10:28:12 563
转载 2011百度数据挖掘研发工程师实习生笔试面试题
笔试题:一、简答题30分1. extern”C”{}的作用好应用场景;2.写出两者你熟悉的设计模式,及应用场景,可以给出伪代码;3.TCP中time_wait是表示那种状态,及应用场景,以及起好处和坏处;二、算法题40分1. 有一个任务执行机,任务数N但是任务之间没有循环依赖,请给出适当的任务执行顺序。算法、伪代码,并分析其时间复杂度和空间复杂度。2. 编写函数
2012-05-05 09:35:34 733
转载 2012百度数据挖掘研发工程师笔试题
一.简单题1.C++中STL vector 相关 (1).push_back函数的内存分配是怎样的? (2).clear函数的内存分配是如何实现的?2.(这道题目给出了一个C语言的代码,让找出foo函数中的错误或者不合理的地方)[具体代码记不清除了,大概如下]void foo(char a[100], cnt[256]){ memset(cnt, 0
2012-05-05 09:33:38 1218
转载 数学之美番外篇:平凡而又神奇的贝叶斯方法
概率论只不过是把常识用数学公式表达了出来。——拉普拉斯记得读本科的时候,最喜欢到城里的计算机书店里面去闲逛,一逛就是好几个小时;有一次,在书店看到一本书,名叫贝叶斯方法。当时数学系的课程还没有学到概率统计。我心想,一个方法能够专门写出一本书来,肯定很牛逼。后来,我发现当初的那个朴素归纳推理成立了——这果然是个牛逼的方法。——题记目录0. 前言 1. 历史 1.1
2012-05-02 12:30:26 1348
转载 数学之美 二十四 从全球导航到输入法——谈谈动态规划
推荐系统最早在亚马逊的网站上应用,根据以往用户的购买行为,推荐出购买某种产品同时可能购买的其他产品,国内做的不错的当当网,有时候买书,它总能给我推荐出我感兴趣的其他书来,也算是技术极大的促进了销售。一般的协同过滤算法,首先是收集用户对事物(产品)的评分情况,一种直接对某本书,或者某个歌曲打分,另种是隐性的打分,比如商务系统中,购买了表示打2分,浏览了打1分,其他的0分。我比较看好隐性打分,因为
2012-05-02 12:29:20 907
转载 数学之美系列 二十三 输入一个汉字需要敲多少个键 — 谈谈香农第一定律
今天各种汉字输入法已经很成熟了,随便挑出一种主要的输入法比十几年前最好的输入法都要快、要准。现在抛开具体的输入法,从理论上分析一下,输入汉字到底能有多快。我们假定常用的汉字在二级国标里面,一共有 6700 个作用的汉字。如果不考虑汉字频率的分布,用键盘上的 26 个字母对汉字编码,两个字母的组合只能对 676 个汉字编码,对 6700 个汉字编码需要用三个字母的组合,即编码长度为三。当然,
2012-05-02 12:29:12 629
转载 数学之美系列二十二:由电视剧《暗算》所想到的 — 谈谈密码学的数学原理
前一阵子看了电视剧《暗算》,蛮喜欢它的构思和里面的表演。其中有一个故事提到了密码学,故事本身不错,但是有点故弄玄虚。不过有一点是对的,就是当今的密码学是以数学为基础的。(没有看过暗算的读者可以看一下介绍,http://ent.sina.com.cn/v/2005-10-17/ba866985.shtml因为我们后面要多次提到这部电视剧。)密码学的历史大致可以推早到两千年前,相传名将凯撒
2012-05-02 12:28:51 1480
转载 数学之美系列二十一:布隆过滤器(Bloom Filter)
在日常生活中,包括在设计计算机软件时,我们经常要判断一个元素是否在一个集合中。比如在字处理软件中,需要检查一个英语单词是否拼写正确(也就是要判断它是否在已知的字典中);在 FBI,一个嫌疑人的名字是否已经在嫌疑名单上;在网络爬虫里,一个网址是否被访问过等等。最直接的方法就是将集合中全部的元素存在计算机中,遇到一个新元素时,将它和集合中的元素直接比较即可。一般来讲,计算机中的集合是用哈希表(hash
2012-05-02 12:28:36 1170
转载 数学之美系列二十:自然语言处理的教父 马库斯
我们在前面的系列中介绍和提到了一些年轻有为的科学家,迈克尔·柯林斯,艾里克·布莱尔,大卫·雅让斯基,拉纳帕提等等,他们都出自宾夕法尼亚计算机系米奇·马库斯(Mitch Marcus)名下。就像许多武侠小说中描写的,弟子都成了各派的掌门,师傅一定了不得。的确,马库斯虽然作为第一作者发表的论文并不多,但是从很多角度上讲,他可以说是自然语言处理领域的教父。马库斯教授长期当任宾夕法尼亚大学计算机系
2012-05-01 16:37:58 1840
转载 数学之美系列十九:马尔可夫链的扩展 贝叶斯网络 (Bayesian Networks)
我们在前面的系列中多次提到马尔可夫链 (Markov Chain),它描述了一种状态序列,其每个状态值取决于前面有限个状态。这种模型,对很多实际问题来讲是一种很粗略的简化。在现实生活中,很多事物相互的关系并不能用一条链来串起来。它们之间的关系可能是交叉的、错综复杂的。比如在下图中可以看到,心血管疾病和它的成因之间的关系是错综复杂的。显然无法用一个链来表示。我们可以把上述的有向图看成
2012-05-01 16:37:24 1012
转载 数学之美系列十八:矩阵运算和文本处理中的分类问题
我在大学学习线性代数时,实在想不出它除了告诉我们如何解线性方程外,还能有什么别的用途。关于矩阵的许多概念,比如特征值等等,更是脱离日常生活。后来在数值分析中又学了很多矩阵的近似算法,还是看不到可以应用的地方。当时选这些课,完全是为了混学分的学位。我想,很多同学都多多少少有过类似的经历。直到后来长期做自然语言处理的研究,我才发现数学家们提出那些矩阵的概念和算法,是有实际应用的意义的。在自然语
2012-05-01 16:35:38 1001
转载 数学之美系列十七:闪光的不一定是金子 谈谈搜索引擎作弊问题(Search Engine Anti-SPAM)
自从有了搜索引擎,就有了针对搜索引擎网页排名的作弊(SPAM)。以至于用户发现在搜索引擎中排名靠前的网页不一定就是高质量的,用句俗话说,闪光的不一定是金子。搜索引擎的作弊,虽然方法很多,目的只有一个,就是采用不正当手段提高自己网页的排名。早期最常见的作弊方法是重复关键词。比如一个卖数码相机的网站,重复地罗列各种数码相机的品牌,如尼康、佳能和柯达等等。为了不让读者看到众多讨厌的关键词,聪明一
2012-05-01 16:33:33 1236
转载 数学之美系列十六:不要把所有的鸡蛋放在一个篮子里 -- 谈谈最大熵模型
[我们在投资时常常讲不要把所有的鸡蛋放在一个篮子里,这样可以降低风险。在信息处理中,这个原理同样适用。在数学上,这个原理称为最大熵原理(the maximum entropy principle)。这是一个非常有意思的题目,但是把它讲清楚要用两个系列的篇幅。]前段时间,Google 中国研究院的刘骏总监谈到在网络搜索排名中,用到的信息有上百种。更普遍地讲,在自然语言处理中,我们常常知道各种
2012-05-01 16:29:59 1796
转载 数学之美系列十五:繁与简 自然语言处理的几位精英
我在数学之美系列中一直强调的一个好方法就是简单。但是,事实上,自然语言处理中也有一些特例,比如有些学者将一个问题研究到极致,执著追求完善甚至可以说完美的程度。他们的工作对同行有很大的参考价值,因此我们在科研中很需要这样的学者。在自然语言处理方面新一代的顶级人物麦克尔 · 柯林斯 (Michael Collins) 就是这样的人。柯林斯:追求完美 柯林斯从师于自然语言处理大师
2012-05-01 16:23:28 703
转载 数学之美十四:谈谈数学模型的重要性
在包括哥白尼、伽利略和牛顿在内的所有天文学家中,我最佩服的是地心说的提出者托勒密。虽然天文学起源于古埃及,并且在古巴比伦时,人们就观测到了五大行星(金、木、水、火、土)运行的轨迹,以及行星在近日点运动比远日点快。(下图是在地球上看到的金星的轨迹,看过达芬奇密码的读者知道金星大约每四年在天上画一个五角星。)但是真正创立了天文学,并且计算出诸多天体运行轨迹的是两千年前古罗马时代的托勒密
2012-05-01 16:19:54 674
转载 数学之美系列十三:信息指纹及其应用
任何一段信息文字,都可以对应一个不太长的随机数,作为区别它和其它信息的指纹(Fingerprint)。只要算法设计的好,任何两段信息的指纹都很难重复,就如同人类的指纹一样。信息指纹在加密、信息压缩和处理中有着广泛的应用。我们在图论和网络爬虫一文中提到,为了防止重复下载同一个网页,我们需要在哈希表中纪录已经访问过的网址(URL)。但是在哈希表中以字符串的形式直接存储网址,既费内存空间,又浪费
2012-05-01 16:17:56 499
转载 数学之美系列十二:余弦定理和新闻的分类
余弦定理和新闻的分类似乎是两件八杆子打不着的事,但是它们确有紧密的联系。具体说,新闻的分类很大程度上依靠余弦定理。Google 的新闻是自动分类和整理的。所谓新闻的分类无非是要把相似的新闻放到一类中。计算机其实读不懂新闻,它只能快速计算。这就要求我们设计一个算法来算出任意两篇新闻的相似性。为了做到这一点,我们需要想办法用一组数字来描述一篇新闻。我们来看看怎样找一组数字,或者说一个向
2012-05-01 16:15:19 812
转载 数学之美系列十一:Google 阿卡 47 的制造者阿米特.辛格博士
枪迷或者看过尼古拉斯.凯奇(Nicolas Cage)主演的电影“战争之王”(Lord ofWar)的人也许还记得影片开头的一段话:(在所有轻武器中,)最有名的是阿卡 47( AK47)冲锋枪(也就是中国的五六式冲锋枪的原型),因为它从不卡壳、从不损坏、可在任何环境下使用、可靠性好、杀伤力大并且操作简单。我认为,在计算机中一个好的算法,应该向阿卡 47 冲锋枪那样简单、有效、可靠性好而
2012-05-01 16:14:21 1009
转载 数学之美系列十:有限状态机和地址识别
地址的识别和分析是本地搜索必不可少的技术,尽管有许多识别和分析地址的方法,最有效的是有限状态机。一个有限状态机是一个特殊的有向图(参见有关图论的系列),它包括一些状态(节点)和连接这些状态的有向弧。下图是一个识别中国地址的有限状态机的简单的例子。每一个有限状态机都有一个启始状态和一个终止状态和若干中间状态。每一条弧上带有从一个状态进入下一个状态的条件。比如,在上图中,当前的
2012-05-01 16:10:08 751
转载 数学之美系列九:如何确定网页和查询的相关性
我们已经谈过了如何自动下载网页、如何建立索引、如何衡量网页的质量(Page Rank)。我们今天谈谈如何确定一个网页和某个查询的相关性。了解了这四个方面,一个有一定编程基础的读者应该可以写一个简单的搜索引擎了,比如为您所在的学校或院系建立一个小的搜索引擎。]我们还是看上回的例子,查找关于“原子能的应用”的网页。我们第一步是在索引中找到包含这三个词的网页(详见关于布尔运算的系列)。现在任
2012-05-01 16:05:14 507
转载 数学之美系列八:贾里尼克的故事和现代语言处理
读者也许注意到了,我们在前面的系列中多次提到了贾里尼克这个名字。事实上,现代语音识别和自然语言处理确实是和它的名字是紧密联系在一起的。我想在这回的系列里,介绍贾里尼克本人。在这里我不想列举他的贡献,而想讲一讲他作为一个普普通通的人的故事。这些事要么是我亲身经历的,要么是他亲口对我讲的。弗莱德里克.贾里尼克(Fred Jelinek)出生于捷克一个富有的犹太家庭。他的父母原本打算送他去英国的
2012-05-01 16:01:57 1703
转载 数学之美系列七:信息论在信息处理中的应用
我们已经介绍了信息熵,它是信息论的基础,我们这次谈谈信息论在自然语言处理中的应用。先看看信息熵和语言模型的关系。我们在系列一中谈到语言模型时,没有讲如何定量地衡量一个语言模型的好坏,当然,读者会很自然地想到,既然语言模型能减少语音识别和机器翻译的错误,那么就拿一个语音识别系统或者机器翻译软件来试试,好的语言模型必然导致错误率较低。这种想法是对的,而且今天的语音识别和机器翻译也是这么做的。但
2012-05-01 15:59:04 727
转载 数学之美系列六:图论和网络爬虫 (Web Crawlers)
[离散数学是当代数学的一个重要分支,也是计算机科学的数学基础。它包括数理逻辑、集合论、图论和近世代数四个分支。数理逻辑基于布尔运算,我们已经介绍过了。这里我们介绍图论和互联网自动下载工具网络爬虫 (Web Crawlers) 之间的关系。顺便提一句,我们用Google Trends 来搜索一下“离散数学”这个词,可以发现不少有趣的现象。比如,武汉、哈尔滨、合肥和长沙市对这一数学题目最有兴趣的城
2012-05-01 15:56:19 2437
转载 数学之美系列五:布尔代数和搜索引擎的索引
[建立一个搜索引擎大致需要做这样几件事:自动下载尽可能多的网页;建立快速有效的索引;根据相关性对网页进行公平准确的排序。我们在介绍google page rank(网页排名) 时已经谈到了一些排序的问题,这里我们谈谈索引问题,以后我们还会谈如何度量网页的相关性,和进行网页自动下载。]世界上不可能有比二进制更简单的计数方法了,也不可能有比布尔运算更简单的运算了。尽管今天每个搜索引擎都宣称自己
2012-05-01 15:50:40 478
转载 数学之美系列四:怎样度量信息?
前言: Google 一直以 “整合全球信息,让人人能获取,使人人能受益” 为使命。那么究竟每一条信息应该怎样度量呢?信息是个很抽象的概念。我们常常说信息很多,或者信息较少,但却很难说清楚信息到底有多少。比如一本五十万字的中文书到底有多少信息量。直到 1948 年,香农提出了“信息熵”(shāng) 的概念,才解决了对信息的量化度量问题。一条信息的信息量大小和它的不确定性有直接
2012-05-01 15:49:07 787
转载 数学之美系列三:隐含马尔可夫模型在语言处理中的应用
前言:隐含马尔可夫模型是一个数学模型,到目前为之,它一直被认为是实现快速精确的语音识别系统的最成功的方法。复杂的语音识别问题通过隐含马尔可夫模型能非常简单地被表述、解决,让我不由由衷地感叹数学模型之妙。自然语言是人类交流信息的工具。很多自然语言处理问题都可以等同于通信系统中的解码问题 -- 一个人根据接收到的信息,去猜测发话人要表达的意思。这其实就象通信中,我们根据接收端收到的信号去分析、
2012-05-01 15:48:18 521
转载 数学之美系列二:谈谈中文分词
上回我们谈到利用统计语言模型进行语言处理,由于模型是建立在词的基础上的,对于中日韩等语言,首先需要进行分词。例如把句子 “中国航天官员应邀到美国与太空总署官员开会。”分成一串词:中国 / 航天 / 官员 / 应邀 / 到 / 美国 / 与 / 太空 / 总署 / 官员 / 开会。最容易想到的,也是最简单的分词办法就是查字典。这种方法最早是由北京航天航空大学的梁南元教授提出的
2012-05-01 15:45:51 996
转载 数学之美系列一:统计语言模型
前言也许大家不相信,数学是解决信息检索和自然语言处理的最好工具。它能非常清晰地描述这些领域的实际问题并且给出漂亮的解决办法。每当人们应用数学工具解决一个语言问题时,总会感叹数学之美。我们希望利用 Google 中文黑板报这块园地,介绍一些数学工具,以及我们是如何利用这些工具来开发 Google 产品的。系列一: 统计语言模型 (Statistical Language Models
2012-05-01 15:44:31 511
翻译 算法导论主定理——算法复杂度分析的利器
设a>=1,b>1为常数,设f(n)为一函数,T(n)的递归式:T(n)=aT(n/b)+f(n)其中n/b指n/b的上取整或者是下取整。那么T(n)可能有如下的渐进界:1)e>0,有f(n)=O(n^(log_b(a)-e)),则T(n)=O(n^log_b(a))2)若f(n)=O(n^log_b(a)),则T(n)=O(n^log_b(a)*log(n))3)e>0,
2012-04-25 17:28:24 1844
转载 linux下查看系统资源和负载,以及性能监控
1,查看磁盘df -h2,查看内存大小freefree [-m|g]按MB,GB显示内存vmstat3,查看cpucat /proc/cpuinfo只看cpu数量grep "model name" /proc/cpuinfo | wc -l4,查看系统内存cat /proc/meminfo5,查看每个进程的情况cat /proc/5346/statu
2012-04-22 21:32:36 413
转载 Wget使用技巧
wget 是一个命令行的下载工具。对于我们这些 Linux 用户来说,几乎每天都在使用它。下面为大家介绍几个有用的 wget 小技巧,可以让你更加高效而灵活的使用 wget。$ wget -r -np -nd http://www.kuqin.com/ packages/这条命令可以下载 http://www.kuqin.com 网站上 packages 目录中的所有文件。其中,-np
2012-04-22 18:18:31 469
转载 非编程天才参与开源项目的14种方式
如果你想参与到开源项目中去,却又不知道从何入手,这里提供一些参考方法或许能给你提供一些帮助,哪怕你对你目前的技术还缺乏自信都不要紧。开源软件已经改变了IT,甚至整个世界,正是因为有了你们,乐于奉献在开源事业中。不幸的是,很多人把参与到开源项目中想象成一个难以跨越的障碍一样,因此而退缩。我通常听到人们说他们很想参与到开源项目中来,但是因为以下的3个原因而打消了念头。1. 我还不足够优秀2
2012-04-20 10:53:02 585
转载 C++运算符优先级表格
C++运算符优先级表格:http://www.cppreference.com/operator_precedence.htmlPrecedenceOperatorDescriptionExampleAssociativity1()[]->.::++--Grouping operatorArray access
2012-04-13 19:31:50 520
一个简单带日志的内存申请和释放的类
2011-09-25
IBM笔试资料大礼包,整理了好长时间哦
2011-05-14
2008年10月11日腾讯软件开发笔试[nightelf]
2011-05-14
[算法分析与设计].(美国)Michael.T.Goodrich.清晰版
2010-11-08
Overview of the H.264/AVC Video Coding Standard
2010-11-05
linux socket programming by example.PDF(英文版)
2010-04-18
LINUX与UNIX_Shell编程指南.part4.rar
2010-04-18
LINUX与UNIX_Shell编程指南.part3.rar
2010-04-18
LINUX与UNIX_Shell编程指南.part2.rar
2010-04-18
LINUX与UNIX_Shell编程指南.part1.rar
2010-04-18
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人