
海量数据处理
文章平均质量分 90
ts173383201
本人性格热情开朗,待人友好,为人诚实谦虚。工作勤奋,认真负责,能吃苦耐劳,尽职尽责,有耐心,对技术难题肯专研。具有亲和力,平易近人,善于与人沟通。 <br/>学习刻苦认真,成绩优秀,名列前茅。品学兼优,连续两年年获得学院奖学金。 <br/>四年的大学和两年的研究生生涯,让我的组织协调能力、管理能力、应变能力等大大提升,使我具备良好的心理素质,让我在竞争中拥有更大的优势,让我在人生事业中走得更高更远。 责任描述:独立完成整个系统的设计与实现 项目描述:本系统以 B/S 结构为系统框架,以 Dreamware CS5为开发平台、PHP为开发工具,Mysql为数据库工具,开发出了具有管理员管理模块、研究生查询管理模块、导师查询管理模块、登陆注销模块等良好功能和性能的研究生助研金管理系统; 责任描述:前期:LINUX系统下同步服务器的开发,主要负责同步信息处理,同步管理,认证管理模块的设计与实现,SyncML同步协议的研究和实现,主要语言C++,开发工具Qt;<br/>中期:android系统下的手机助手客服端的开发,主要负责手机同步模块,底层与上层client以及服务器socket通信模块的设计与实现,主要语言C,JAVA,开发工具Eclipse;<br/>后期:到深圳经纬公司开发时,由于赶任务又参与了PC端同步模块和整个系统同步功能的测试和bug修改工作; 项目描述:移动终端服务平台将解决移动终端设备(主要是智能设备),比如,电脑、智能手机、平板电脑等之间的信息共享和设备管理,将用户拥有的多个智能终端设备通过服务平台有机地联系在一起进行数据共享和同步,并集成虚拟手机,手机管理,主题、音乐、软件等的下载安装,通讯录和日程的同步功能于一体;
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
海量数据处理之Bitmap
什么是Bit-map 所谓的Bit-map就是用一个bit位来标记某个元素对应的Value, 而Key即是该元素。由于采用了Bit为单位来存储数据,因此在存储空间方面,可以大大节省。 如果说了这么多还没明白什么是Bit-map,那么我们来看一个具体的例子,假设我们要对0-7内的5个元素(4,7,2,5,3)排序(这里假设这些元素没有重复)。那么我们就可以采用Bit-map的方法原创 2012-08-09 10:12:41 · 976 阅读 · 0 评论 -
海量数据处理之Bloom Filter
问题:给定a、b两个文件,各存放50亿个url,每个url各占64字节,内存限制是4G,让你找出a、b文件共同的url?方案1:可以估计每个文件安的大小为50G×64=320G,远远大于内存限制的4G。所以不可能将其完全加载到内存中处理。考虑采取分而治之的方法。遍历文件a,对每个url求取,然后根据所取得的值将url分别存储到1000个小文件(记为,这里漏写个了a1)中。这样每个小原创 2012-08-08 14:32:56 · 856 阅读 · 0 评论 -
海量数据处理之数据库索引
前言:本文第一部分讨论数据库的索引及其优化,主要以sql server为例,第二部分我们从Mysql讨论它背后的数据结构和算法原理。第一部分,数据库索引及其优化一,什么是索引 数据库索引好比是一本书前面的目录,能加快数据库的查询速度。 例如这样一个查询:select * from table1 where id=44。如果没有索引,必须遍历整个表,直到ID等于44的原创 2012-08-13 10:18:28 · 1946 阅读 · 0 评论 -
海量数据面试题集锦
何谓海量数据处理? 所谓海量数据处理,无非就是基于海量数据上的存储、处理、操作。何谓海量,就是数据量太大,所以导致要么是无法在较短时间内迅速解决,要么是数据太大,导致无法一次性装入内存。处理海量数据问题,无非就是:1.分而治之/hash映射 + hash统计 +堆/快速/归并排序;2.双层桶划分3.Bloom filter/Bitmap;4.Trie树/数据库/倒排索引原创 2012-08-15 09:17:47 · 1643 阅读 · 0 评论 -
海量数据处理之从Hadoop框架与MapReduce模式中谈海量数据处理(淘宝技术架构)
出处:http://blog.csdn.net/v_july_v/article/details/6704077前言 几周前,当我最初听到,以致后来初次接触Hadoop与MapReduce这两个东西,我便稍显兴奋,觉得它们很是神秘,而神秘的东西常能勾起我的兴趣,在看过介绍它们的文章或论文之后,觉得Hadoop是一项富有趣味和挑战性的技术,且它还牵扯到了一个我更加感兴趣的话题:转载 2012-06-06 15:07:27 · 947 阅读 · 0 评论 -
海量数据处理之外排序
前言:本文是对July博文http://blog.csdn.net/v_JULY_v/article/details/6451990的一些总结现在先让我们来看一道有关外排序的题:问题描述:输入:一个最多含有n个不重复的正整数(也就是说可能含有少于n个不重复正整数)的文件,其中每个数都小于等于n,且n=10^7。输出:得到按从小到大升序排列的包含所有输入的整数的列表。条件:最原创 2012-08-07 15:10:38 · 5190 阅读 · 0 评论 -
海量数据处理之倒排索引
前言:本文是对博文http://blog.csdn.net/v_july_v/article/details/7085669的总结和引用一,什么是倒排索引问题描述:文档检索系统,查询那些文件包含了某单词,比如常见的学术论文的关键字搜索。基本原理及要点:为何叫倒排索引?一种索引方法,被用来存储在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射。 以英文为例,下面是要被索引的原创 2012-08-14 10:58:40 · 11120 阅读 · 0 评论 -
海量数据处理之Tire树(字典树)
参考博文:http://blog.csdn.net/v_july_v/article/details/6897097第一部分、Trie树1.1、什么是Trie树 Trie树,即字典树,又称单词查找树或键树,是一种树形结构,是一种哈希树的变种。典型应用是用于统计和排序大量的字符串(但不仅限于字符串),所以经常被搜索引擎系统用于文本词频统计。它的优点是:最大限度地减少无谓的字符串比较原创 2012-08-13 09:02:23 · 38754 阅读 · 10 评论 -
海量数据处理之分而治之/hash映射 + hash统计 + 堆/快速/归并排序
本章和后面的几章我将对海量数据和其处理的方法进行一些总结,很多内容转自博文http://blog.csdn.net/v_july_v/article/details/7382693何谓海量数据处理? 所谓海量数据处理,无非就是基于海量数据上的存储、处理、操作。何谓海量,就是数据量太大,所以导致要么是无法在较短时间内迅速解决,要么是数据太大,导致无法一次性装入内存。处理海量数据问题,原创 2012-08-08 15:59:23 · 1977 阅读 · 0 评论 -
海量数据处理之双层桶划分
双层桶划分什么是双层桶事实上,与其说双层桶划分是一种数据结构,不如说它是一种算法设计思想。面对一堆大量的数据我们无法处理的时候,我们可以将其分成一个个小的单元,然后根据一定的策略来处理这些小单元,从而达到目的。适用范围 第k大,中位数,不重复或重复的数字基本原理及要点 因为元素范围很大,不能利用直接寻址表,所以通过多次划分,逐步确定范围,然后最后在一原创 2012-08-08 15:07:01 · 2232 阅读 · 0 评论