自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(104)
  • 资源 (12)
  • 收藏
  • 关注

转载 特殊索引类型

位图索引也称bitmap索引。该索引主要针对DF(文档频率)非常高的term,比如“的”(如果它不是一个停用词的话)。它用一个位来表示是否在某个文档中出现,因此,对于总文档数为N的索引库,每个term对应的索引大小为N/8。差分索引普通索引中,文档ID使用u_int表示。对于索引比较长的term,其连续两个文档ID之间的差通常比较小,因此可以采用记录差值来代替记录ID,并且

2011-11-25 15:18:37 624

转载 实时索引

记录修改次数一个全局的位图结构记录每个文档的当前修改次数,每次修改该次数增1。这样只需要对修改后内容的term的索引拉链进行追加,并在索引中记录当前修改次数,原来的term不需要动。检索的时候在获取索引拉链时比较修改索引中记录的修改次数是否与全局结构的修改次数相同,不同则是“过期”的索引,不再使用。这些过期的索引可以在合并的索引库的时候丢弃。大小ID编号方法小ID表示全局I

2011-11-25 15:18:33 915

转载 检索FAQ

Q1:不到1秒的时间怎么在网上检索到那么多的东东?   1Q2:什么是倒排索引?   2Q3:像mp3、image这种非文本对象怎么建立倒排索引?   2Q4:为什么要进行切词?怎么进行切词?   2Q5:ns的检索系统是怎么实现Q1中所说的检索过程的?   2Q6:前端检索服务程序之间是怎么分工合作的?   3Q7:as、bs、di的检索架构有什么

2011-11-25 15:18:30 2314

转载 Hadoop常见问题及解决办法

1:ShuffleError: Exceeded MAX_FAILED_UNIQUE_FETCHES; bailing-outAnswer:程序里面需要打开多个文件,进行分析,系统一般默认数量是1024,(用ulimit-a可以看到)对于正常使用是够了,但是对于程序来讲,就太少了。修改办法:修改2个文件。      /etc/security/limits.confvi/e

2011-11-25 15:18:26 1391

转载 再识Secondary Namenode

初次在Hadoop中看见SecondaryNamenode的时候,给我的第一感觉就是,SecondaryNamenode是Namenode的一个备份,以防止Namenode出现单点故障,现在才明白,Secondary Namenode的作用是和FSimage, Fseditlog分不开的。FSimage中保存的是整个文件系统的目录结构,而Fseditlog中是一些操作的日志文件。

2011-11-25 15:18:23 869

转载 Apache Mahout 简介

在信息时代,公司和个人的成功越来越依赖于迅速有效地将大量数据转化为可操作的信息。无论是每天处理数以千计的个人电子邮件消息,还是从海量博客文章中推测用户的意图,都需要使用一些工具来组织和增强数据。这其中就蕴含着机器学习 领域以及本文章所介绍项目的前景:Apache Mahout(见参考资料)。机器学习是人工智能的一个分支,它涉及通过一些技术来允许计算机根据之前的经验改善其输出。此领域与数据挖掘密

2011-11-25 15:18:15 741

转载 特征选择

一.什么是特征选择(Feature Selection ) 特征选择也叫特征子集选择 ( FSS , Feature Subset Selection ) 。是指从已有的M个特征(Feature)中选择N个特征使得系统的特定指标最优化。需要区分特征选择与特征提取。特征提取 ( Feature extraction )是指利用已有的特征计算出一个抽象程度更高的特征集,也指计算得到某个特征

2011-11-25 15:18:05 2141

转载 Kmeans

Kmeans算法k-means 算法接受参数 k;然后将事先输入的n个数据对象划分为k个聚类以便使得所获得的聚类满足:同一聚类中的对象相似度较高;而不同聚类中的对象相似度较小。聚类相似度是利用各聚类中对象的均值所获得一个“中心对象”(引力中心)来进行计算的。 算法流程首先从n个数据对象任意选择 k个对象作为初始聚类中心;而对于所剩下其它对象,则根据它们与这些聚类中心的相似度(距离)

2011-11-25 15:18:01 582

转载 KNN-K最近邻分类模型

KNN原理训练元组用n个属性描述,每个元组代表n维空间中的一个点,所有的训练元组存放在n维的模式空间。当给定一个未知元组时,搜索该模式空间,找出最接近未知元组的k个训练元组。未知元组指派到它的k个最近邻中的多数类。“邻近性”用距离度量,如欧几里德距离。 KNN算法中的细节处理•数值属性规范化:将数值属性规范到0-1区间以便于计算,也可防止大数值型属性对分类的主导作用。可选的方法

2011-11-25 15:17:55 1703

转载 文本分类算法

文本分类大致有两种方法:一种是基于训练集的文本分类方法;另一种是基于分类词表的文本分类方法。两种方法出自不同角度的研究者,训练集法更多的来自计算机或人工智能研究领域,而分类表法则更多地来自突出情报领域。本文主要介绍前一种。 基于训练集的文本分类是一种典型的有教师的机器学习问题,一般分为训练和分类两个阶段,具体过程如下: 训练阶段: 1)             定义类别集合

2011-11-25 15:17:55 1595

转载 C++笔试题

题目(一):我们可以用static修饰一个类的成员函数,也可以用const修饰类的成员函数(写在函数的最后表示不能修改成员变量,不是指写在前面表示返回值为常量)。请问:能不能同时用static和const修饰类的成员函数?分析:答案是不可以。C++编译器在实现const的成员函数的时候为了确保该函数不能修改类的实例的状态,会在函数中添加一个隐式的参数const this*。但当一个成员为s

2011-11-25 15:00:20 478 1

转载 c++笔试题汇总

①链表反转单向链表的反转是一个经常被问到的一个面试题,也是一个非常基础的问题。比如一个链表是这样的: 1->2->3->4->5 通过反转后成为5->4->3->2->1。最容易想到的方法遍历一遍链表,利用一个辅助指针,存储遍历过程中当前指针指向的下一个元素,然后将当前节点元素的指针反转后,利用已经存储的指针往后面继续遍历。源代码如下:struct linka

2011-11-25 15:00:16 518

转载 c++编程修养

1、版权和版本  ———————  好的程序员会给自己的每个函数,每个文件,都注上版权和版本。  对于C/C++的文件,文件头应该有类似这样的注释: /************************************************************************ *  * 文件名:network.c *  * 文件描述:

2011-11-25 14:59:43 633

转载 C++笔试题——华为

,后果很严重。个人答案,仅供参考。呵呵,不过保证绝大多数答案的准确性。1.写出判断ABCD四个表达式的是否正确,若正确,写出经过表达式中 a的值(3分)int a = 4;(A)a += (a++); (B) a += (++a) ;(C) (a++) += a;(D) (++a) += (a++);a = ?答:C错误,左侧不是一个有效变量,不能赋值,可改

2011-11-25 14:59:35 532

转载 c/c++笔试题大解析

1.   以下三条输出语句分别输出什么?[C易]     char   str1[]               =    "abc";     char   str2[]               =    "abc";     const    char    str3[]   =    "abc";       const    char    str4[]   =

2011-11-25 14:59:30 460 1

转载 hash_map介绍

0为什么需要hash_map用过map吧?map提供一个很常用的功能,那就是提供key-value的存储和查找功能。例如,我要记录一个人名和相应的存储,而且随时增加,要快速查找和修改: 岳不群-华山派掌门人,人称君子剑张三丰-武当掌门人,太极拳创始人东方不败-第一高手,葵花宝典...这些信息如果保存下来并不复杂,但是找起来比较麻烦。例如我要找"张三丰"的信息,最傻的方法

2011-11-25 14:59:25 447

原创 stl map 总结

map是c++的一个标准容器,它是一类关联式容器。它的特点是增加和删除节点对迭代器的影响很小,除了那个操作节点,对其他的节点都没有什么影响。对于迭代器来说,可以修改实值,而不能修改key.它使用红黑树实现,查询和插入时间效率都是log(n),元素是自动按key升序排序 1. map最基本的构造函数;   mapmapstring;        mapmapint;  mapmap

2011-11-25 14:59:21 473

转载 浅谈C++容器

什么是容器首先,我们必须理解一下什么是容器,在C++ 中容器被定义为:在数据存储上,有一种对象类型,它可以持有其它对象或指向其它对像的指针,这种对象类型就叫做容器。很简单,容器就是保存其它对象的对象,当然这是一个朴素的理解,这种“对象”还包含了一系列处理“其它对象”的方法,因为这些方法在程序的设计上会经常被用到,所以容器也体现了一个好处,就是“容器类是一种对特定代码重用问题的良好的解决方案”。

2011-11-25 14:59:17 381

转载 C++ 容器类简介

C++中的容器类包括“顺序存储结构”和“关联存储结构”,前者包括vector,list,deque等;后者包括set,map,multiset,multimap等。若需要存储的元素数在编译器间就可以确定,可以使用数组来存储,否则,就需要用到容器类了。 1、vector    连续存储结构,每个元素是在内存上是连续的;    支持高效的随机访问和在尾端插入/删除操作,但其他位

2011-11-25 14:59:13 419

转载 vector用法

C++内置的数组支持容器的机制,但是它不支持容器抽象的语义。要解决此问题我们自己实现这样的类。在标准C++中,用容器向量(vector)实现。容器向量也是一个类模板。标准库vector类型使用需要的头文件:#include。vector是一个类模板。不是一种数据类型,vector是一种数据类型。Vector的存储空间是连续的,list不是连续存储的。一、定义和初始化vector v1;

2011-11-25 14:59:08 392

转载 time函数

C/C++中的日期和时间头文件 time.h函数用途 函数名得到处理器时间 clock得到时间差 difftime设置时间 mktime得到时间 time得到以ASCII码表示的时间 asctime得到字符串表示的时间 ctime得到指定格式的时间 strftime摘要:本文从介绍基础概念入手,探讨了在C/C++中对日期和时间操作所用到的数据结构和函数,

2011-11-25 14:59:04 741

转载 C/C++中怎样获取日期和时间

C/C++中怎样获取日期和时间摘要: 本文从介绍基础概念入手,探讨了在C/C++中对日期和时间操作所用到的数据结构和函数,并对计时、时间的获取、时间的计算和显示格式等方面进行了阐述。本文还通过大量的实例向你展示了time.h头文件中声明的各种函数和数据结构的详细使用方法。  关键字:UTC(世界标准时间),Calendar Time(日历时间),epoch(时间点),c

2011-11-25 14:59:00 730

转载 c typedef

在C语言的情况下,与C++稍有出入。typedef在结构体定义,还有一些数组等地方都大量的用到。归纳一下:来源一:Using typedef toCurb Miscreant CodeTypedef声明有助于创建平台无关类型,甚至能隐藏复杂和难以理解的语法。不管怎样,使用 typedef 能为代码带来意想不到的好处,通过本文你可以学习用 typedef避免缺欠,从而使代码更健壮。typ

2011-11-25 14:58:56 489

转载 c 内存对齐

在最近的项目中,我们涉及到了“内存对齐”技术。对于大部分程序员来说,“内存对齐”对他们来说都应该是“透明的”。“内存对齐”应该是编译器的“管辖范围”。编译器为程序中的每个“数据单元”安排在适当的位置上。但是C语言的一个特点就是太灵活,太强大,它允许你干预“内存对齐”。如果你想了解更加底层的秘密,“内存对齐”对你就不应该再透明了。一、内存对齐的原因 内存对齐(3张)大部分的参考资料都

2011-11-25 14:58:52 382

转载 float和double类型的内存分布和比较方法

C/C++的浮点数据类型有float和double两种。类型float大小为4字节,即32位,内存中的存储方式如下:  符号位(1 bit) 指数(8 bit)尾数(23 bit)  类型double大小为8字节,即64位,内存布局如下: 符号位(1 bit)指数(11 bit) 尾数(52 bit)   符号位决定浮点数的正负,0正1负。指数和

2011-11-25 14:58:43 641

转载 dynamic_cast

用法dynamic_cast ( expression )该运算符把expression转换成type-id类型的对象。Type-id必须是类的指针、类的引用或者void*;如果type-id是类指针类型,那么expression也必须是一个指针,如果type-id是一个引用,那么expression也必须是一个引用。dynamic_cast主要用于类层次间的上行转换和下行转换,

2011-11-25 14:58:38 379

转载 new vs malloc

1、new 是c++中的操作符,malloc是c 中的一个函数 2、new 不止是分配内存,而且会调用类的构造函数,同理delete会调用类的析构函数,而malloc则只分配内存,不会进行初始化类成员的工作,同样free也不会调用析构函数 3、内存泄漏对于malloc或者new都可以检查出来的,区别在于new可以指明是那个文件的那一行,而malloc没有这些信息。 4、new 和 malloc

2011-11-25 14:58:35 420

转载 gprof

一 gprof功能简介Gprof功能:打印出程序运行中各个函数消耗的时间,可以帮助程序员找出众多函数中耗时最多的函数。产生程序运行时候的函数调用关系,包括调用次数,可以帮助程序员分析程序的运行流程。有了函数的调用关系,这会让开发人员大大提高工作效率,不用费心地去一点点找出程序的运行流程,这对小程序来说可能效果不是很明显,但对于有几万,几十万代码量的工程来说,效率是毋庸置疑的!而且这个功能对

2011-11-25 14:58:30 459

转载 gprof使用方法

gprof的适用范围gprof可以用来分析系统在运行时各函数调用的次数,耗时等情况,可以方便地帮助我们定位系统的瓶颈,同时也能让我们知道对程序的那个位置就行优化能够带来尽可能大的性能提升。gprof优化尤其适用于CPU、内存密集性的应用模块。gprof的安装使用目前我们的linux主机上大多都安装了gprof,详细的参数等可以通过man gprof查看。需要重点指出的是,目

2011-11-25 14:58:26 860

转载 Valgrind

Valgrind是什么?Valgrind是一个提供程序调试及性能分析的工具集。其包含的工具主要有Memcheck,Cachegrind,Callgrind,Massif等。其中,最为常用的是Memcheck,其主要用来检查程序heap上的内存使用情况。本文档主要介绍Memcheck的用法和一些使用技巧。其官方网站是:   http://valgrind.org/ Valgr

2011-11-25 14:58:21 619

转载 判断单链表是否存在环

问题:1、如何判断一个链表是不是这类链表?2、如果链表为存在环,如果找到环的入口点?解答:一、判断链表是否存在环,办法为:设置两个指针(fast, slow),初始值都指向头,slow每次前进一步,fast每次前进二步,如果链表存在环,则fast必定先进入环,而slow后进入环,两个指针必定相遇。(当然,fast先行头到尾部为NULL,则为无环链表)程序如下:bool Is

2011-11-25 14:29:59 464

转载 判断两个单链表是否相交

判断两个单链表是否相交,如果相交,给出相交的第一个点(两个链表都不存在环)。比较好的方法有两个:一、将其中一个链表首尾相连,检测另外一个链表是否存在环,如果存在,则两个链表相交,而检测出来的依赖环入口即为相交的第一个点。二、如果两个链表相交,那个两个链表从相交点到链表结束都是相同的节点,我们可以先遍历一个链表,直到尾部,再遍历另外一个链表,如果也可以走到同样的结尾点,则两个链表相交。

2011-11-25 14:29:51 410

转载 合并两个有序链表

Node * Merge(Node *head1 , Node *head2){if (head1 == NULL)return head2;if (head2 == NULL)return head1; Node *head, *p1, *p2;if (head1->data data){head = head1;p

2011-11-25 14:29:44 349

转载 链表排序

double cmp(ListNode *p ,ListNode *q){return (p->keyVal - q->keyVal);} ListNode* mergeSortList(ListNode *head){ ListNode *p, *q, *tail, *e; int nstep = 1; int nmerges = 0; int

2011-11-25 14:29:39 464

转载 在O(1)时间删除链表结点

题目:给定链表的头指针和一个结点指针,在O(1)时间删除该结点。链表结点的定义如下:struct ListNode{int m_nKey;ListNode* m_pNext;};函数的声明如下:void DeleteNode(ListNode* pListHead, ListNode* pToBeDeleted);分析:这是一道广为流传的Google面试题,能有效考

2011-11-25 14:29:32 590

转载 反转链表

void reverse(Link *& head){    if(head==NULL) return;    Link *pre,*cur,*next;    pre=head;    cur=head->next;    while(cur){        next=cur->next;        cur->next=pre;        pre=cu

2011-11-25 14:29:21 295

转载 复杂链表的复制

下图是一个含有5个结点的该类型复杂链表。图中实线箭头表示m_pNext指针,虚线箭头表示m_pSibling指针。为简单起见,指向NULL的指针没有画出。                                  请完成函数ComplexNode* Clone(ComplexNode* pHead),以复制一个复杂链表。                分

2011-11-25 14:29:14 432

转载 LRU算法的实现

什么是LRU算法? LRU是Least Recently Used的缩写,即最近最少使用页面置换算法,是为虚拟页式存储管理服务的。关于操作系统的内存管理,如何节省利用容量不大的内存为最多的进程提供资源,一直是研究的重要方向。而内存的虚拟存储管理,是现在最通用,最成功的方式——在内存有限的情况下,扩展一部分外存作为虚拟内存,真正的内存只存储当前运行时所用得到信息。这无疑极大地扩充了内存的功能,极

2011-11-25 14:29:08 1115

转载 trie树

trie树定义  Trie树,又称单词查找树或键树,是一种树形结构,是一种哈希树的变种。典型应用是用于统计和排序大量的字符串(但不仅限于字符串),所以经常被搜索引擎系统用于文本词频统计。它的优点是:最大限度地减少无谓的字符串比较,查询效率比哈希表高。编辑本段结构示意图  ‍  ‍  trie树结构原理示意图‍编辑本段基本特

2011-11-25 14:28:02 375

转载 红黑树

红黑树是AVL树的变种,具体定义如下:红黑树也是一棵二叉查找树,要满足一下性质(1)每个节点或者是黑色,或者是红色。(2)根节点是黑色。(3)每个叶子节点(NIL)是黑色。(4)如果一个节点是红色的,则它的子节点必须是黑色的。(5)从一个节点到该节点的子孙节点的所有路径上包含相同数目的黑节点。定义:从某个节点x出发(不包括该节点)到达一个叶节点的任意

2011-11-25 14:27:57 839

计算机基础精华

总结各种IT面试基础精华,对面试很有帮助

2014-06-04

LeetCode题解

通向米国IT求职的极佳面试必备算法题库,经过分类整理

2014-06-04

手写代码必备手册

分类整理了各种常用面试算法,对算法要求较高的面试极为有用

2014-06-04

多种方法求2个数的最大公约数

介绍求最大公约数的方法:辗转相除法、二进制操作法等多种方法

2010-05-04

软件项目管理 人件中文第二版

《人件》第1版于 1987 年出版,专门讨论了软件开发和维护团队的管理问题,并向人们的传统认识提出了挑战。作者在书中推崇人本管理思想,正确指出知识型企业的核心是人,而不是技术,呼吁给予软件工作者充分的自由和信任。本书推出后,立即在西方引起了轰动,被誉为“几十年来对美国软件业影响最大的理念”。与《人月神话》一样,《人件》现已成为软件团队管理的经典之作。它和《人月神话》共同被誉为软件图书中“两朵最鲜艳的奇葩”。人们认为,《人月神话》关注“软件开发”本身,《人件》则关注软件开发中的“人”,因此,在成千上万的书架上,《人件》永远和《人月神话》并列在一起。1999 年 2 月,《人件》第2版出版,增补了8 章新内容。这些新内容拥有更加宽广的视角,对大中型组织中的团队如何运作进行了深入探讨。

2009-02-22

linux基本命令大全

由于操作和使用环境的陌生,如果要完全熟悉Linux的应用我们首先要解决的问题就是对Linux常用命令的熟练掌握。本书我们就来介绍Linux的常用基本命令

2009-01-08

编程高手箴言.chm

本书是作者十余年编程生涯中的技术和经验的总结。内容涵盖了从认识CPU、Windows运行机理、编程语言的运行机理,到代码的规范和风格、分析方法、调试方法和内核优化,内有作者对许多问题的认知过程和透彻的分析,以及优秀和精彩的编程经验。

2009-01-08

Oracle 9i10g编程艺术

oracle 9i10g编程艺术(中文版)TOM经典

2008-12-01

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除