2011年04月_忘记怎样忘记

转载 copy 链表

2,算法题 struct Node{ Node* next; Node* rand;//rand 指向rand_list中随机的一个Node void* data; } rand_list; 实现 void copy( Node** to, Node* from); 如果不用辅存，怎么实现？ <br

2011-04-26 14:14:00 531

原创进程调度算法

调度算法是指：根据系统的资源分配策略所规定的资源分配算法。 一、先来先服务和短作业（进程）优先调度算法 1. 先来先服务调度算法 先来先服务（FCFS）调度算法是一种最简单的调度算法，该算法既可用于作业调度，也可用于进程调度。FCFS算法比较有利于长作业（进程），而不利于短作业（进程）。由此可知，本算法适合于CPU繁忙型作业，而不利于I/O繁忙型的作业（进程）。 2. 短作业（进程）优先调度算法 短作业（进程

2011-04-26 08:19:00 1173

原创进程vs线程，如何选择?

进程vs线程，如何选择? 我们编写程序，到底是采用多线程还是多进程？这里是有区别的，采用不同的机制能够获得的效率也不一样。如何选择适合我们自己的程序的机制呢？下面是一些常见的选择的看法，不过也只是提供给大家参考参考，具体设计的时候还是要自己处理。 ¨ 一个程序里面的所有的线程都在同一个运行空间中执行。而一个程序的子进程则是运行在另外的执行空间中的，这里是通过调用了exec函数来实现的。 ¨ 同一个进程中的某个线程的故障可以影响其它的线程，因为所有的线程共

2011-04-25 23:17:00 848

转载败者树原理

2个子结点比较后的败者放入它们的父结点，而胜者送到它们父结点的父节点去再作比较，这才是败者树。b[0]放的是最终的胜者。

2011-04-25 16:55:00 1410

转载外部排序简介

在许多实际应用系统中，经常遇到要对数据文件中的记录进行排序处理。由于文件中的记录很多、信息量庞大，整个文件所占据的存储单元远远超过一台计算机的内存容量。因此，无法把整个文件输入内存中进行排序。于是，就有必要研究适合于处理大型数据文件的排序技术。通常，这种排序往往需要借助于具有更大容量的外存设备才能完成。相对于仅用内存进行排序（又称为内排序）而言，这种排序方法就叫做外排序。在实际应用中，由于使用的外存设备不同，通常又可以分为磁盘文件排序和磁带文件排序两大类。磁带排序和磁盘排序的基本步骤相

2011-04-25 16:48:00 2730

转载搜索引擎原理

搜索引擎可以分为4个系统：下载系统、分析系统、索引系统和查询系统。前三个是“离线系统”，最后一个是“在线系统”。 下载系统负责从互联网上下载各种类型的网页，并且保持对互联网变化同步。首先是一个叫网络爬虫的程序在网页上抓取网页，抓取的算法主要有宽度优先和深度优先两种方式。然而，网页链接有可能出现死循环，这样就要避免重复抓取，重用的方法有用哈希表来记录下爬虫抓取的历史记录，和设定一个最大深度，用深度优先来抓取。在抓取的过程中，尽量保证先抓取重要性的网页，

2011-04-25 16:37:00 746

转载 Linux--TCP/IP/UDP/ICMP协议头结构

1、UDP协议 UDP协议是建立在IP协议基础之上的，用在传输层的协议。UDP和IP协议一样是不可靠的数据报服务。 0 16 32 ------------------------------------------------------- | UDP源端口 | UDP目的端口 | <br

2011-04-25 16:28:00 1340

转载十道海量数据处理面试题与十个方法大总结

http://apps.hi.baidu.com/share/detail/33033021 第一部分、十道海量数据处理面试题 　　1、海量日志数据，提取出某日访问百度次数最多的那个IP。 　　此题，在我之前的一篇文章算法里头有所提到，当时给出的方案是：IP的数目还是有限的，最多2^32个，所以可以考虑使用hash将ip直接存入内存，然后进行统计。 　　再详细介绍下此方案：首先是这一天，并且是访问百度的日志中的IP取出来，逐个写入到一个大文件中

2011-04-25 16:25:00 515

原创 TCP的TIME_WAIT状态

主动关闭的Socket端会进入TIME_WAIT状态，并且持续2MSL时间长度，MSL就是maximum segment lifetime(最大分节生命期），这是一个IP数据包能在互联网上生存的最长时间，超过这个时间将在网络中消失。MSL在RFC 1122上建议是2分钟，而源自berkeley的TCP实现传统上使用30秒，因而，TIME_WAIT状态一般维持在1-4分钟。 TIME_WAIT状态存在的理由： 1）可靠地实现TCP全双工连接的终止

2011-04-24 20:55:00 699

转载海量数据算法

1. 给定a、b两个文件，各存放50亿个url，每个url各占64字节，内存限制是4G，让你找出a、b文件共同的url？方案1：可以估计每个文件安的大小为50G×64=320G，远远大于内存限制的4G。所以不可能将其完全加载到内存中处理。考虑采取分而治之的方法。（1）遍历文件a，对每个url求取clip_image002，然后根据所取得的值将url分别存储到1000个小文件（记为 clip_image004）中。这样每个小文件的大约为300M。（2）

2011-04-24 19:47:00 933

原创 Trie树

Trie树，又称单词查找树或键树，是一种树形结构，是一种哈希树的变种。典型应用是用于统计和排序大量的字符串（但不仅限于字符串），所以经常被搜索引擎系统用于文本词频统计。它的优点是：最大限度地减少无谓的字符串比较，查询效率比哈希表高。 它有3个基本特性： 　　1）根节点不包含字符，除根节点外每一个节点都只包含一个字符。　　2）从根节点到某一节点，路径上经过的字符连接起来，为该节点对应的字符串。 　　3）每个节点的所有子节点包含的字符都不相同。 <

2011-04-24 19:38:00 652

转载如何用WORD编辑参考文献

在整论文，整的头疼。Word2007中好多功能的位置跟2003不一样，更加大了难度。 Word2007中修改参考文献： 视图中-->普通视图 引用中-->显示备注 下面出现一个窗口，选择xxxx(跟下面介绍的一样) 采用合适的编辑方法会方便地做到整齐,规范,自动排序和交叉引用。 1.以尾注的方式插入第一个参考文献。将光标定位于word文档中将要插入参考文献的位置，按“插入/引用/脚注和尾注”。出现一菜单，选择“尾注”“文档结

2011-04-15 17:34:00 3502

Jay_Fighting的专栏