自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

nuoline的专栏

关注NLP,ML,云计算,大数据,hadoop 我的微博:http://weibo.com/nuoline

  • 博客(263)
  • 资源 (3)
  • 收藏
  • 关注

原创 求点集中面积最大的三角形

如果枚举3个点再算面积,必然超时。很显然的最大面积的三角形的三个顶点必然是这个点集的凸包上的点,因此先求出凸包。如果求出凸包仍然枚举,一样会超时。这个可以借助求凸包直径类似的方法来求最大面积的三角形,使用旋转卡壳方法。枚举三角形的第一个顶点i,然后初始第二个顶点j=i+1,第三个顶点k=j+1,循环k+1直到Area(i,j,k)>Area(i,j,k+1)更新面积的最大值,下面就开

2013-02-25 18:39:05 728

原创 Linux下C语言用socket获取网页源码…

第一个为利用linux下的工具来获取网页源码,我用的是Wget,也可以使用Curl,curl的话更加的灵活,可以设置很多参数C++代码//通过Wget来获取网页  string GetHtmlByWget(string url)  {       //获取待下载网页文件名      string fileName = url.substr((int)url.fin

2013-02-25 18:38:58 3671

原创 Hadoop使用常见问题以及解决方法

1:Shuffle Error: Exceeded MAX_FAILED_UNIQUE_FETCHES;bailing-outAnswer:程序里面需要打开多个文件,进行分析,系统一般默认数量是1024,(用ulimit-a可以看到)对于正常使用是够了,但是对于程序来讲,就太少了。修改办法:修改2个文件。       /etc/security/limits.confvi /e

2013-02-25 18:38:55 443

原创 从头到尾彻底解析Hash 表算法

作者:July、wuliming、pkuoliver  出处:http://blog.csdn.net/v_JULY_v。  说明:本文分为三部分内容,   第一部分为一道百度面试题TopK算法的详解;第二部分为关于Hash表算法的详细阐述;第三部分为打造一个最快的Hash表算法。------------------------------------第一部分:Top K算法

2013-02-25 18:38:53 490

原创 十道海量数据处理面试题-转

第一部分、十道海量数据处理面试题 1、海量日志数据,提取出某日访问百度次数最多的那个IP。   此题,在我之前的一篇文章:十一、从头到尾彻底解析Hash表算法里头有所提到,当时给出的方案是:IP的数目还是有限的,最多2^32个,所以可以考虑使用hash将ip直接存入内存,然后进行统计。   再详细介绍下此方案:首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中。注意

2013-02-25 18:38:51 384

原创 Top K算法详细解析

搜索引擎会通过日志文件把用户每次检索使用的所有检索串都记录下来,每个查询串的长度为1-255字节。假设目前有一千万个记录,这些查询串的重复度比较高,虽然总数是1千万,但如果除去重复后,不超过3百万个。一个查询串的重复度越高,说明查询它的用户越多,也就是越热门。请你统计最热门的10个查询串,要求使用的内存不能超过1G。问题解析:【分析】:要统计最热门查询,首先就是要统计每个Query出现的次

2013-02-25 18:38:49 382

原创 面试题目-大数据量专题

1.给你A,B两个文件,各存放50亿条URL,每条URL占用64字节,内存限制是4G,让你找出A,B文件共同的URL。 2. 有10个文件,每个文件1G,每个文件的每一行都存放的是用户的query,每个文件的query都可能重复。要你按照query的频度排序 3.有一个1G大小的一个文件,里面每一行是一个词,词的大小不超过16个字节,内存限制大小是1M。返回频数最高的100个词4.海

2013-02-25 18:38:47 500

原创 linux部分命令的全称

apt = Advanced Packaging Toolar = archiveras = assemblerawk = "Aho Weiberger and Kernighan" 三个作者的姓的第一个字母bash = Bourne Again SHellbc = Basic (Better) Calculatorbg = BackGroundbin = BINaries(bina

2013-02-25 18:38:44 576

原创 awk内置字符串函数

常用内置函数awk内置字符串函数gsub(r,s)      在整个$0中用s替代rgsub(r,s,t)    在整个t中用s替代rindex(s,t)     返回s中字符串t的第一位置length(s)      返回s长度match(s,r)     测试s是否包含匹配r的字符串split(s,a,fs)   在fs上将s分成序列asprint(fmt,exp)

2013-02-25 18:38:42 8394

原创 递归特例-斐波那契数列

特例:有N个台阶 一次只能走1个台阶或者2个台阶,请问有几种走法 int GetNum(int N){   if(N>2)    {      return GetNum(N-1)+GetNum(N-2);    }    elseif(N==2)      return 2;    elseif(N==1)      return 1;    else

2013-02-25 18:38:40 553

原创 Spectral Bloom Filter算法

Bloomfilter将集合中的元素映射到位数组中,用k(k为哈希函数个数)个映射位是否全1表示元素在不在这个集合中。Countingbloomfilter(CBF)将位数组中的每一位扩展为一个counter,从而支持了元素的删除操作。一旦位扩展成了counter,每一个counter就不仅能表示这一地址有无映射,还能表示映射的个数。这一扩展使得存储的数据包含了更多信息,然而遗憾的是,CBF

2013-02-25 18:38:38 440

原创 Bloom-Filter算法简介

一、 Bloom-Filter算法简介。Bloom-Filter,即布隆过滤器,1970年由Bloom中提出。它可以用于检索一个元素是否在一个集合中,其优点是空间效率和查询时间都远远超过其他算法,其不足在于Bloom-Filter存在着误判。二、 Bloom-Filter的基本思想。Bloom-Filter算法的核心思想就是利用多个不同的Hash函数来解决“冲突”。计算某元素x是否在一个

2013-02-25 18:38:36 465

原创 linux编程

Linux API 参考BSD socket 入门指引BoSD Scket简易入门手册。curses 库介绍之一介绍UNIX 屏幕导向程序的发展利器- curses (之一) 。curses 库介绍之二 介绍介绍UNIX屏幕导向程序的发展利器 - curses (之二) 。多进程编程介绍在UNIX系统上的编程实践经验。Linux 系统调用介绍在

2013-02-25 18:38:34 442

原创 openssl/md5.h 出错解决方案

出现:error: openssl/md5.h: No such file or directory原因是libssl-dev 没有安装,执行:sudo apt-get install libssl-dev 就可以了如果还报错:MD5.cpp:(.text+0xd): undefined reference to `MD5_Init'MD5.cpp:(.text+0x26): undef

2013-02-25 18:38:31 11232 2

原创 百度面试题

1)设计一个栈结构,满足一下条件:min,push,pop操作的时间复杂度为O(1)3)设计一个系统处理词语搭配问题,比如说 中国 和人民可以搭配,则中国人民 人民中国都有效。要求:  1)系统每秒的查询数量可能上千次;  2)词语的数量级为10W;  3)每个词至多可以与1W个词搭配  当用户输入中国人民的时候,要求返回与这个搭配词组相关的信息.2)一串首尾相连的珠子(m个),有

2013-02-25 18:38:29 539

原创 C++文件打开

打开文件,如果文件不存在不新建#include #include //exit()int main(){ifstream infile;infile.open("myfile.dat",ios::nocreate);if(infile.fail()){cout << "the file are notsuccessfully opened"exit(1);}cout<<

2013-02-25 18:38:27 691

原创 使用ifstream和getline读取文件内…

假设有一个叫data.txt 的文件,它包含以下内容:  Fry: One Jillion dollars.[Everyone gasps.]Auctioneer: Sir, that's not a number.数据读取, 测试 。#include iostream>#include fstream>#include string>using namespac

2013-02-25 18:38:25 552 1

原创 g++和gcc的关系

g++ 和 gcc 的关系  g++是GNU(组织)的一个编译器,用于编译C++程序;  gcc是GNU(组织)的一个编译器,用于编译C程序和C++程序;  区别在于编译C++程序时g++更好用一些,换句话说编译C++程序时使用gcc可能有麻烦;  在编译含有Template类的C++程序时,gcc编译通不过,其他不变,用g++命令编译就可以通过

2013-02-25 18:38:23 408

原创 awk使用

什么是awk?你可能对UNIX比较熟悉,但你可能对awk很陌生,这一点也不奇怪,的确,与其优秀的功能相比,awk还远没达到它应有的知名度。awk是什么?与其它大多数UNIX命令不同的是,从名字上看,我们不可能知道awk的功能:它既不是具有独立意义的英文单词,也不是几个相关单词的缩写。事实上,awk是三个人名的缩写,他们是:Aho、(Peter)Weinberg和(Brain)Kernighan

2013-02-25 18:38:20 276

转载 精选微软等公司数据结构+算…

原文地址:[上]">精选微软等公司数据结构+算法经典面试100题 [上]作者:叛逆年少                    精选微软经典的数据结构+算法面试100题   ---------------------- 本人July对以下所有任何内容和资料享有版权,转载请注明出处。向你的厚道致敬。谢谢。2010年11月19日。---------------------------

2013-02-25 18:38:18 701

原创 新浪sina微博weibo系统开发工程师j…

一、数据结构 算法  1、hashtable的实现,如何解决冲突  2、二叉树,满二叉树,完全二叉树的特征  3、伪代码前序,后序,中序  4、数组和链表区别及适用地方  二、操作系统 网络  1、简述虚拟内存概念  2、进程线程概念 区别  3、块设备 字符设备的概念 区别  4、TCP释放连接的过程  三、linux  1、常见的10个linux命令

2013-02-25 18:38:16 765

原创 Ltp:&nbsp;Language&nbsp;Technology&nbsp;Platfor…

Introduction语言技术平台(Language TechnologyPlatform,LTP)是哈工大社会计算与信息检索研究中心历时十年开发的一整套中文语言处理系统。LTP制定了基于XML的语言处理结果表示,并在此基础上提供了一整套自底向上的丰富而且高效的中文语言处理模块(包括词法、句法、语义等6项中文处理核心技术),以及基于动态链接库(DynamicLink Library, DL

2013-02-25 18:38:14 1303

原创 From&nbsp;Google&nbsp;Research&nbsp;Blog:&nbsp;Googl…

发表于 2011年05月19号 由 52nlp  自然语言处理与计算语言学的盛会ACL 2011即将在美国俄勒冈州波特兰市举行,而Google ResearchBlog在昨天发表了一篇“Googleat ACL 2011”,给大家及时通报了今年Google在ACL2011上的参与情况。粗略的看了一下,Google今年在ACL上发表的Paper涉及Part-of-Speech Taggi

2013-02-25 18:38:12 599

原创 笔试相关

校内笔试需要注意的几点:父类和子类的构造函数和构析函数,链表合并Mutex类的使用,线程安全等

2013-02-25 18:38:10 391

原创 国内语料库建设

英语学习者语料库(书面语及口语)中国学习者语料库 CLEC(100万)广外、上海交大大学英语学习者口语语料库 COLSEC (5万) 上海交大香港科技大学学习者语料库 HKUST Learner Corpus 香港科技大学中国英语专业语料库 CEME (148万) 南京大学中国英语学习者口语语料库 SECCL (100万) 南京大学国际外语学习者英语口语语料库中国部分 LINSEI-Ch

2013-02-25 18:38:07 1205

原创 自然语言处理技术的三个里程碑

自然语言处理技术的三个里程碑微软亚洲研究院黄昌宁张小凤摘要要:本文就半个世纪以来自然语言处理(NLP)研究领域中笔者所观察到的要点进行阐述,其中包括两个事实和三大重要成果。近年自然语言处理研究所揭示的两个事实为:(1)对于句法分析来说,基于单一标记的短语结构规则是不充分的;(2)短语结构规则在真实文本中的分布呈现严重扭曲。换言之,有限数目的短语结构规则不能覆盖大规模语料中的语法现

2013-02-25 18:38:05 7007

原创 贪心算法

一.贪心算法的基本概念    当一个问题具有最优子结构性质时,我们会想到用动态规划法去解它。但有时会有更简单有效的算法。我们来看一个找硬币的例子。假设有四种硬币,它们的面值分别为二角五分、一角、五分和一分。现在要找给某顾客六角三分钱。这时,我们会不假思索地拿出2个二角五分的硬币,1个一角的硬币和3个一分的硬币交给顾客。这种找硬币方法与其他

2013-02-25 18:38:03 545

原创 动态规划算法

在数学与计算机科学领域,动态规划用于解决那些可分解为重复子问题(overlappingsubproblems,想想递归求阶乘吧)并具有最优子结构(optimalsubstructure,想想最短路径算法)(如下所述)的问题,动态规划比通常算法花费更少时间。上世纪40年代,RichardBellman最早使用动态规划这一概念表述通过遍历寻找最优决策解问题的求解过程。1953年,Richard

2013-02-25 18:38:01 2161

原创 2011年最新名企薪酬系列——IT行业

2011年IT业薪酬大比拼

2013-02-25 18:37:59 641

原创 北邮云计算社区

我创建的云计算社区:北邮云计算社区,欢迎来访问:http://buptcloud.uqc.cn/

2013-02-25 18:37:57 641

原创 各行业薪水,和金融业现状分析

各行业薪水,和金融业现状分析(转)快消类:宝洁:本7200、研8200、博9700,均14个月,另有800交通补助,marketing每9个月涨20%-30%。玛氏:月薪10000。据说将14个月的工资除以12得出的数据,有知情者可以证实或证伪箭牌:sales:4400×15。金融类:阳光财险:研究生,投资研究岗,全年基本工资+奖金+福利=8万(税前)  汇丰银行:Glob

2013-02-25 18:37:55 1964

原创 Discuz建站修改

Discuz建站说明书1 安装2 修改2.1 修改logo图片位置:/static/image/common/logo.png(默认风格)2.2 关闭后台SQL执行功能修改 config/config_global.php 关闭此功能$admincp['tpledit'] = 1; // 是否允许在线编辑论坛模板 1=是 0=否[安全]$admincp['runquery'] =

2013-02-25 18:37:52 723

原创 贝叶斯相关理论

贝叶斯(1702-1763) ThomasBayes,英国数学家.1702年出生于伦敦,做过神甫。1742年成为英国皇家学会会员。1763年4月7日逝世。贝叶斯在数学方面主要研究概率论。他首先将归纳推理法用于概率论基础理论,并创立了贝叶斯统计理论,对于统计决策函数、统计推断、统计的估算等做出了贡献.1763年发表了这方面的论著,对于现代概率论和数理统计都有很重要的作用。贝叶斯的另一著作《机会的学

2013-02-25 18:37:50 734

原创 朴素贝叶斯分类器

分类是将一个未知样本分到几个预先已知类的过程。数据分类问题的解决是一个两步过程:第一步,建立一个模型,描述预先的数据集或概念集。通过分析由属性描述的样本(或实例,对象等)来构造模型。假定每一个样本都有一个预先定义的类,由一个被称为类标签的属性确定。为建立模型而被分析的数据元组形成训练数据集,该步也称作有指导的学习。  在众多的分类模型中,应用最为广泛的两种分类模型是决策树模型(Decision

2013-02-25 18:37:48 859

原创 网易有道笔试题

1.从键盘输入a,到记事本中显示字符a,整个过程中,操作系统的工作流程。2.描述从输入网址xxx.com,到浏览器显示该页面的过程

2013-02-25 18:37:46 799

原创 Lucene简介

Lucene是一个基于Java的全文索引工具包。基于Java的全文索引引擎Lucene简介:关于作者和Lucene的历史全文检索的实现:Luene全文索引和数据库索引的比较中文切分词机制简介:基于词库和自动切分词算法的比较具体的安装和使用简介:系统结构介绍和演示HackingLucene:简化的查询分析器,删除的实现,定制的排序,应用接口的扩展从Lucene我们还可以学到什么另

2013-02-25 18:37:43 398

原创 向量空间模型(VSM:Vector&nbsp;Space&nbsp;M…

向量空间模型(VSM:Vector SpaceModel)由Salton等人于20世纪70年代提出,并成功地应用于著名的SMART文本检索系统。  VSM概念简单,把对文本内容的处理简化为向量空间中的向量运算,并且它以空间上的相似度表达语义的相似度,直观易懂。当文档被表示为文档空间的向量,就可以通过计算向量之间的相似性来度量文档间的相似性。文本处理中最常用的相似性度量方式是余弦距离。  M

2013-02-25 18:37:41 1108

原创 K-NN分类器简介

最近邻分类器的学习与分类过程融为一起,在分类过程中需要保护所有训练集样本,对于未知样本X,首先需要利用某种相似度评价标准,从训练集中获取与其最相似的K个样本,再利用k个样本的类别预测预测样本X的类别,因此K-NN算法没有单独的学习阶段,是一种在分类过程中实现学习的监督分类方法。有两点需要注意:1,在设计最近邻分类器时需要一个衡量样本之间距离的度量函数,这个函数必须能够给出两个样本之间的距离大

2013-02-25 18:37:39 4686

原创 北邮云计算社区

北邮云计算社区http://59.64.142.216欢迎大家来访问,谢谢支持

2013-02-25 18:37:36 688

原创 hadoop的web界面汉化

1:安装ant编译环境2:源程序修改   /src/mapred下的相关需要修改的java文件   /src/hdfs下的相关需要修改的java文件   /src/webapps下的相关需要修改的jsp文件3:配置文件修改  /src/hdfs/hafs-default.xml  /src/mapred/mapred-default.xml  其他相关的xml等文件修改4

2013-02-25 18:37:34 3218 3

源云计算平台比较-翟周伟-马娟

对目前的几款主流的云计算平台作了比较研究,以小论文形式描述。

2012-03-10

源云计算相关软件介绍.

详细描述了目前常用的主流云计算平台,并对此作了比较细致的比较。

2012-03-10

搜索引擎中的Crawlings技术PPT

详细介绍了搜索引擎技术以及Crawlings技术

2012-03-10

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除