自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

刘瑞东的专栏

愿本人的一点点积累可以给广大大数据爱好者些许帮助

  • 博客(256)
  • 资源 (20)
  • 收藏
  • 关注

转载 微软公司等数据结构+算法面试100题(第1-100题)全部出炉

微软等公司数据结构+算法面试100题(第1-100题)首次完整亮相                        作者:July、2010年12月6日。更新:现今,这100题的答案已经全部整理出来了,微软面试100题2010年版全部答案集锦:http://blog.csdn.net/v_july_v/article/details/6870251。关

2014-03-27 10:30:30 1659

转载 永久勘误:微软等面试100题答案V0.3版[第21-40题答案]

微软等面试100题答案V0.3版第21-40题部分答案精选 作者:July 、何海涛等网友-------------------------------------开诚布公,接受读者质检本文,是根据我之前上传的,微软等面试100题,的答案V0.3版[第21-40题答案]的部分答案精选,而写。现在,原版答案V0.3版公布出来,接受读者检验。

2014-03-27 10:30:02 1107

转载 永久勘误:微软等面试100题答案V0.3版[第21-40题答案]

微软等面试100题答案V0.3版第21-40题部分答案精选 作者:July 、何海涛等网友-------------------------------------开诚布公,接受读者质检本文,是根据我之前上传的,微软等面试100题,的答案V0.3版[第21-40题答案]的部分答案精选,而写。现在,原版答案V0.3版公布出来,接受读者检验。

2014-03-27 10:29:52 1393

转载 永久勘误:微软等面试100题系列,答案V0.4版[第41-60题答案]

永久勘误:微软面试100系列答案V0.4版[第41-60题答案] 作者:July、何海涛等网友---------------------------几点声明:I、  此微软面试100题系列永久更新,答案永久勘误,永久优化。随时,永远,欢迎,任何人,针对任何一题,提出自己的思路、意见。并对那些修正公布于博客上的答案的网友,表示最大的感谢。II、 不管你

2014-03-27 10:29:44 2064

转载 全新整理:微软、谷歌、百度等公司经典面试100题[第101-160题]

全新整理:微软、谷歌、百度等公司经典面试100题[第101-160题]整理:July、二零一一年三月九日。应网友承诺与要求,全新整理。转载,请注明出处。博主说明:此100题V0.2版,本人不再保证,还会提供答案。因为之前整理的微软100题,已经基本上,把题目都出尽了。见谅。--------------------------------------------

2014-03-27 10:29:32 938

转载 十道海量数据处理面试题与十个方法大总结

海量数据处理:十道面试题与十个海量数据处理方法总结作者:July、youwang、yanxionglu。时间:二零一一年三月二十六日本文之总结:教你如何迅速秒杀掉:99%的海量数据处理面试题。有任何问题,欢迎随时交流、指正。出处:http://blog.csdn.net/v_JULY_v。 第一部分、十道海量数据处理面试题1、海量日志数据

2014-03-27 10:29:14 1253

转载 永久优化:微软技术面试100题第11-20题答案修正与优化

永久优化:微软技术面试100题第11-20题答案修正与优化作者:July、Sorehead、leeyunce、zhedahht等。时间:二零一一年四月四日。微博:http://weibo.com/julyweibo。出处:http://blog.csdn.net/v_JULY_v。--------------------------------------------

2014-03-27 10:28:49 919

转载 全新整理:微软、Google等公司的面试题及解答、第161-170题

全新整理:微软、Google等公司非常好的面试题及解答、第161-170题整理:July。时间:二零一一年四月十日。微博:http://weibo.com/julyweibo。出处:http://blog.csdn.net/v_JULY_v。------------------------------- 引言    此微软100题V0.2版的前60题

2014-03-27 10:28:40 1141

转载 从Hadoop框架与MapReduce模式中谈海量数据处理(含淘宝技术架构)

从hadoop框架与MapReduce模式中谈海量数据处理前言    几周前,当我最初听到,以致后来初次接触Hadoop与MapReduce这两个东西,我便稍显兴奋,觉得它们很是神秘,而神秘的东西常能勾起我的兴趣,在看过介绍它们的文章或论文之后,觉得Hadoop是一项富有趣味和挑战性的技术,且它还牵扯到了一个我更加感兴趣的话题:海量数据处理。    由此,最近凡是空

2014-03-27 10:28:12 1311

转载 九月十月百度人搜,阿里巴巴,腾讯华为笔试面试八十题(第331-410题)

九月十月百度人搜,阿里巴巴,腾讯华为小米搜狗笔试面试八十题引言    自发表上一篇文章至今(事实上,上篇文章更新了近3个月之久),blog已经停了3个多月,而在那之前,自开博以来的21个月每月都不曾断过。正如上一篇文章支持向量机通俗导论(理解SVM的三层境界)末尾所述:”额,blog许久未有更新了,因为最近实在忙,无暇顾及blog。“与此同时,工作之余,也一直在

2014-03-26 10:03:49 3209

转载 十月百度,阿里巴巴,迅雷搜狗最新面试七十题(第201-270题)

十月百度,阿里巴巴,迅雷搜狗最新面试七十题(第201-270题)引言   当即早已进入10月份,十一过后,招聘,笔试,面试,求职渐趋火热。而在这一系列过程背后浮出的各大IT公司的笔试/面试题则蕴含着诸多思想与设计,细细把玩,思考一番亦能有不少收获。    上个月,本博客着重整理九月腾讯,创新工场,淘宝等公司最新面试十三题,此次重点整理百度,阿里巴巴,迅雷和搜索等

2014-03-26 10:03:30 1109

转载 微软面试100题2010年版全部答案集锦(含下载地址)

微软等数据结构+算法面试100题全部答案集锦作者:July、阿财。时间:二零一一年十月十三日。引言     无私分享造就开源的辉煌。     今是二零一一年十月十三日,明日14日即是本人刚好开博一周年。在一周年之际,特此分享出微软面试全部100题答案的完整版,以作为对本博客所有读者的回馈。     一年之前的10月14日,一个名叫

2014-03-26 10:03:19 2301

转载 十月下旬腾讯,网易游戏,百度迅雷校园招聘笔试题集锦(第271-330题)

十月下旬腾讯,网易游戏,百度最新校园招聘笔试题集锦(第271-330题)引言    此文十月百度,阿里巴巴,迅雷搜狗最新面试十一题已经整理了最新的面试题70道,本文依次整理腾讯,网易游戏,百度等各大公司最新校园招聘的笔试题,后续将继续整理十月下旬的笔/面试题。腾讯2011.10.15校园招聘会笔试题1、下面的排序算法中,初始数据集的排列顺序对算法的性能无

2014-03-26 10:03:07 934

转载 教你如何迅速秒杀掉:99%的海量数据处理面试题

教你如何迅速秒杀掉:99%的海量数据处理面试题作者:July出处:结构之法算法之道blog前言   一般而言,标题含有“秒杀”,“99%”,“史上最全/最强”等词汇的往往都脱不了哗众取宠之嫌,但进一步来讲,如果读者读罢此文,却无任何收获,那么,我也甘愿背负这样的罪名,:-),同时,此文可以看做是对这篇文章:十道海量数据处理面试题与十个方法大总结的

2014-03-26 10:02:57 887

转载 B树、B-树、B+树、B*树

B树       即二叉搜索树:       1.所有非叶子结点至多拥有两个儿子(Left和Right);       2.所有结点存储一个关键字;       3.非叶子结点的左指针指向小于其关键字的子树,右指针指向大于其关键字的子树;       如:              B树的搜索,从根结点开始,如果查询的关键字与结点的关

2014-03-26 10:00:23 597

转载 Bloom Filter算法及应用

1. 引言问题:有1000瓶药,但是其中有一瓶是有毒的,小白鼠吃了24小时后就会死掉,请问,在24小时找出有毒的药物,最少需要多少只小白鼠?答案是:10只,一只小白鼠可以表示2种状态,2^10可以表示1024种状态分析可参考:http://lzj0470.iteye.com/blog/657579通过二进制向量组来扩展描述的状态,Bloom Filter(BF)算法也是利用这个思想

2014-03-26 09:54:39 696

转载 Hive metastore三种存储方式

测试环境下Hive总出问题,metastore的配置有问题。抽了点时间,把Hive的meta数据几种存储方式都配置了下。Hive的meta 数据支持以下三种存储方式,其中两种属于本地存储,一种为远端存储。远端存储比较适合生产环境。Hive官方wiki详细介绍了这三种方式,链接为:Hive Metastore 。一、使用derby数据库存储元数据。这种方式是最简单的存储方式,只需

2014-03-26 09:53:33 1028

转载 通用数据结构树—Java语言实现

树是一种常见的数据结构,得到了非常广泛的应用如文件系统、目录结构、霍夫曼编码等。根据树的特点及应用场景,我们通常会遇到二叉树、平衡树、红黑树、竞赛树、B树等。在C、C++语言中我们在实现树时需要用到指针,如在二叉树中,我们会用指针指向左子树和右子树。在Java语言中并没有指针,但道理是类似的,我们使用对象来引用左子树和右子树。下面是自己闲来无事时用Java语言实现的树,这不是一棵二

2014-03-26 09:53:10 1068

转载 shell脚本接收来自命令行传入的参数:

第一个参数用$1表示,第二个参数用$2表示,以此类推。。写一个简单的传参数脚本来测试:#!/bin/bashif [ $1 =="start" ]  then  echo"do start"  elif [ $1 =="stop" ]  then  echo"do stop"  else  echo "Pleasemake sure the positon

2014-03-26 09:51:51 23241

转载 HBase性能优化方法总结

1. 表的设计1.1 Pre-Creating Regions默认情况下,在创建HBase表的时候会自动创建一个region分区,当导入数据的时候,所有的HBase客户端都向这一个region写数据,直到这个region足够大了才进行切分。一种可以加快批量写入速度的方法是通过预先创建一些空的regions,这样当数据写入HBase时,会按照region分区情况,在集群内做数据的负载均衡。

2014-03-26 09:51:06 788

转载 hive+hbase设计细节

前言 近半年本人主要在倒腾数据,遇到海量数据去重的难题,曾经尝试过各种hivesql,然而随着数据量逐渐增大,处理耗时也越来越长,各种方案一一破产。2012年11月份提过使用HBase唯一主键的方案,随即做了相关预研(参看hive&hbase解决方案测评)。该方案由于HBase转化成hive表性能问题而搁浅。但在测评报告最后的总结中提到:或许我们可以选择数据“冷热”、以及部分字段切表来优化。

2014-03-26 09:50:44 1931

转载 Hive metastore三种存储方式

测试环境下Hive总出问题,metastore的配置有问题。抽了点时间,把Hive的meta数据几种存储方式都配置了下。Hive的meta数据支持以下三种存储方式,其中两种属于本地存储,一种为远端存储。远端存储比较适合生产环境。Hive官方wiki详细介绍了这三种方式,链接为:Hive Metastore。一、使用derby数据库存储元数据。这种方式是最简单的存储方式,只需要在

2014-03-26 09:50:11 757

翻译 hbase MapReduce程序样例入门

1、先看一个标准的hbase作为数据读取源和输出源的样例:View Code JAVA12345678Configuration conf = HBaseConfiguration.create();Job job = new Job(conf, "job name ");job.setJarByClass(test.class);Sc

2014-03-26 09:49:54 717

翻译 hbase 介绍

一、简介history started by chad walters and jim2006.11 G release paper on BigTable2007.2 inital HBase prototype created as Hadoop contrib2007.10 First useable Hbase2008

2014-03-26 09:49:25 650 1

原创 concat,concat_ws,group_concat的使用方法

concat函数使用方法:CONCAT(str1,str2,…)返回结果为连接参数产生的字符串。如有任何一个参数为NULL ,则返回值为 NULL。注意:如果所有参数均为非二进制字符串,则结果为非二进制字符串。 如果自变量中含有任一二进制字符串,则结果为一个二进制字符串。一个数字参数被转化为与之相等的二进制字符串格式;若要避免这种情况,可使用显式类型 cast,

2014-03-26 09:48:19 864

转载 修改MySQL默认数据库存放路径

Windows系统:把MySQL装在了C:\Program Files\MySQL\MySQL Server 5.0,默认的数据库文件是放在C:\Program Files\MySQL\MySQL Server 5.0\data下。 但现在在D盘下做项目,因此一个数据库就放在了D盘,路经是这样的:D:\eclipse\workspace\pro1\lib\db。 找到了my

2014-03-26 09:47:52 834

转载 MapReduce学习之二

Mapreduce学习2上一次是在windows上面搭建了hadoop环境,然后并在上面跑了mapreduce程序(wordcount),这一次在linux环境中来搭建hadoop环境,并安装eclipse便于今后开发。 1:安装虚拟机,装linux系统         这里我安装的虚拟机是VMware WorkStation。Linux系统是ubuntu10.04。正常安装即可。

2014-03-26 09:47:16 478

翻译 Hive Partition简介

一、背景1、在Hive Select查询中一般会扫描整个表内容,会消耗很多时间做没必要的工作。有时候只需要扫描表中关心的一部分数据,因此建表时引入了partition概念2、分区表指的是在创建表时指定的partition的分区空间。3、如果需要创建有分区的表,需要在create表的时候调用可选参数partitioned by,详见表创建的语法结构。二、技术细节

2014-03-26 09:46:04 598

原创 java 时间的操作

java代码://由今天的时间获取昨天的时间public static String getSpecifiedDayBefore(String specifiedDay) {Calendar c = Calendar.getInstance();Date date = null;try {date = new SimpleDateFormat("yyyyMMdd").par

2014-03-25 11:55:12 584

转载 MapReduce优化----优化方案着手点

Hadoop/MapReduce 优化方案从三个方面着手优化 :1. hadoop配置2. 设计mapred/job3. 代码级别.4. 改造hadoop一. conf/hadoop-site.xml配置.经验要求高, 特别需要结合实际情况.典型参数如复制因子,mapred.child.java.opts,mapred.tasktracker.map.t

2014-03-25 11:54:53 827

转载 MapReduce优化----几个优化

Cloudera提供给客户的服务内容之一就是调整和优化MapReduce job执行性能。MapReduce和HDFS组成一个复杂的分布式系统,并且它们运行着各式各样用户的代码,这样导致没有一个快速有效的规则来实现优化代码性能的目的。在我看来,调整cluster或job的运行更像一个医生对待病人一样,找出关键的“症状”,对于不同的症状有不同的诊断和处理方式。         在医学领域

2014-03-25 11:53:54 2605

转载 MapReduce优化----6个基础知识

MapReduce任务的优化相信每个程序员在编程时都会问自己两个问题“我如何完成这个任务”,以及“怎么能让程序运行得更快”。同样,MapReduce计算模型的多次优化也是为了更好地解答这两个问题。MapReduce计算模型的优化涉及了方方面面的内容,但是主要集中在两个方面:一是计算性能方面的优化;二是I/O操作方面的优化。这其中,又包含六个方面的内容。1. 任务

2014-03-25 11:52:07 2237

转载 MapReduce优化----宏观hadoop

Google提出了一个令人兴奋的架构。MapReduce把任务分解成小任务,这些小任务可以在普通PC集群上并行执行。这种架构的一种开源实现是yahoo!的hadoop。目前国内在用此架构的公司为百度,淘宝,腾讯等,国外Amazon,Facebook,New York Times等已在使用。  目前,很多internet服务都具有上百万的用户。这些服务产生海量的数据,如何针对海量数据进行分析

2014-03-25 11:50:57 1100

转载 MapReduce优化----参数的解释以及设置

map阶段优化参数:io.sort.mb(default 100)当map task开始运算,并产生中间数据时,其产生的中间结果并非直接就简单的写入磁盘。而是会利用到了内存buffer来进行已经产生的部分结果的缓存,并在内存buffer中进行一些预排序来优化整个map的性能。每一个map都会对应存在一个内存buffer,map会将已经产生的部分结果先写入到该buffer中,

2014-03-25 11:50:01 3103

转载 MapReduce优化----几点根本设置

在编写MapReduce应用程序时,除了最基本的Map模块、Reduce模块和驱动方法之外,用户还可以通过一些技巧优化作业以提高其性能。对用户来说,合理地在MapReduce作业中对程序进行优化,可以极大地提高作业的性能,减少作业执行时间。我们从以下几个方法分析MapReduce作业的优化方法。更多Hadoop相关信息见 http://www.linuxidc.com/search.a

2014-03-25 11:48:25 1398

转载 MapReduce优化----两点瓶颈

mapreduce程序效率的瓶颈在于两点:  1:计算机性能  2:I/O操作优化优化无非包括时间性能和空间性能两个方面,存在一下常见的优化策略:  1:输入的文件尽量采用大文件    众多的小文件会导致map数量众多,每个新的map任务都会造成一些性能的损失。所以可以将一些小文件在进行mapreduce操作前进行一些预处理,整合成大文件,或者直接采用Con

2014-03-25 11:45:20 2301

转载 MapReduce优化----hadoop的管道思想

摘要:在Hadoop系统的实现中,Map端的输出数据首先被溢写入本地磁盘,当本机任务完成后通知JobTracker,然后Reduce端在得到 JobTracker的通知后会发出HTTP请求,利用复制的方式从相应的Map端拉回其1 Hadoop管道改进思想在Hadoop系统的实现中,Map端的输出数据首先被溢写入本地磁盘,当本机任务完成后通知JobTracker,然后Reduce

2014-03-25 11:44:12 1807

转载 MapReduce优化----map和reduce的槽数的设定

1、修改mapreduce中map和reduce的槽数 因为hadoop 的集群所有机器不可能完全硬件配置一样,那么不同节点机器负载也不一样,不同节点上并发的最大map和reduce数量也不一样。可以先试验下将每台tasktracker的map槽数调整到合适的数量,使得其能执行最大map数量。在对应节点机器上修改mapred-site.xml文件,添加如下参数:默认参数为2:在

2014-03-25 11:38:47 2850

转载 MapReduce优化----Shuffle过程剖析及性能优化

Shuffle过程剖析及性能优化MapReduce确保每个reducer的输入都按键排序。Shuffle:系统执行排序的过程—将map输出作为输入传给reducer(如图1、图2)。 图1 图2如图1、图2所示,从map输出到reduce输入就是shuffle阶段。但实际执行过程远比上图所示复杂。Shuffle 是指从Map 产生输出开始,包括系统执行排序以及传送M

2014-03-25 11:38:03 3601

转载 MapReduce优化----基本参数的设定

基本参数要对你的MapReduce Task进行优化,首先我们需要了解一些基本的参数:dfs.block.size, dfs.blocksize: 默认的HDFS文件系统的block大小,单位为byte。mapred.compress.map.output: map的输出是否压缩mapred.map/reduce.tasks.speculative.execution: 推测执

2014-03-25 11:36:15 2467

pig学习笔记

这是学习pig的极好学习资料总结了很多知识,通俗易懂

2012-12-13

[原创]Apache_Pig的一些基础概念及用法总结

这是一个学习pig的极好的资料,通俗易懂

2012-12-13

Carrot2聚类工具简介

这是一个学习Carrot2的极好的书籍,通俗易懂

2012-12-13

实例教程1小时学会Python

这是一个学习python的极好学习文档,通俗易懂

2012-12-13

python入门教程一篇不错的Python入门教

这是一个学习python的极好学习文档,通俗易懂

2012-12-13

Python入门教程

这是一个学习python的极好学习文档,通俗易懂

2012-12-13

Python库参考手册

这是一个学习python的极好学习文档,通俗易懂

2012-12-13

Python教程(原文).

这是一个学习python的极好学习文档,通俗易懂

2012-12-13

Python脚本入门学习经典手册

这是一个学习python的极好学习文档,通俗易懂

2012-12-13

python简明教程中文

这是一个学习python的极好学习文档,通俗易懂

2012-12-13

python的学习.docx

这是一个学习python的极好教程,通俗易懂

2012-12-13

Python_入门.pptx

这是一个学习python的极好教程,通俗易懂

2012-12-13

大规模日志数据存储研究

面向大规模批量日志数据存储方法的研究.docx

2012-10-10

debug详解.docx

这是一款详细介绍eclipse中如何进行debug的文档,深入细致的阐述了如何用它来查找bug以及进行修改,程序员必备

2012-07-24

Java脚本语言程序员手册.pdf

Java脚本语言程序员手册是经过很多大牛级人物精心编写的脚本编辑用的方法,里面详解了如何编写脚本,软件工程师必备

2012-07-24

Linux命令及其使用详解.docx

Linux命令及其使用详解里面讲解了linux系统中常用命令,细致易懂,超强的详解是我极力推荐的

2012-07-24

正则表达式30分钟入门教程.pdf

这是一款经前人总结的超强的学习正则表达式的文档,里面细致的讲解了正则表达式的使用方法,以及构成

2012-07-24

hibernate学习超强知识点荟萃

这是超强的学习笔记,包学包会,里面涵盖了hibernate的所有知识点,深入浅出

2012-07-24

组合数学书答案1

组合数学书答案,这是一个好资料快收藏啊,晚了就没有了,学计算机的快点啊。

2012-03-28

组合数学书答案

组合数学书答案,这是一个好资料快收藏啊,晚了就没有了,学计算机的快点啊。

2012-03-28

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除