stevie-CSDN博客

转载微软公司等数据结构+算法面试100题(第1-100题)全部出炉

微软等公司数据结构+算法面试100题(第1-100题)首次完整亮相作者:July、2010年12月6日。更新：现今，这100题的答案已经全部整理出来了，微软面试100题2010年版全部答案集锦：http://blog.csdn.net/v_july_v/article/details/6870251。关

2014-03-27 10:30:30 1659

转载永久勘误:微软等面试100题答案V0.3版[第21-40题答案]

微软等面试100题答案V0.3版第21-40题部分答案精选作者:July 、何海涛等网友-------------------------------------开诚布公，接受读者质检本文，是根据我之前上传的，微软等面试100题，的答案V0.3版[第21-40题答案]的部分答案精选，而写。现在，原版答案V0.3版公布出来，接受读者检验。

2014-03-27 10:30:02 1107

转载永久勘误:微软等面试100题答案V0.3版[第21-40题答案]

2014-03-27 10:29:52 1393

转载永久勘误:微软等面试100题系列，答案V0.4版[第41-60题答案]

永久勘误：微软面试100系列答案V0.4版[第41-60题答案] 作者：July、何海涛等网友---------------------------几点声明:I、此微软面试100题系列永久更新，答案永久勘误，永久优化。随时，永远，欢迎，任何人，针对任何一题，提出自己的思路、意见。并对那些修正公布于博客上的答案的网友，表示最大的感谢。II、不管你

2014-03-27 10:29:44 2064

转载全新整理：微软、谷歌、百度等公司经典面试100题[第101-160题]

全新整理：微软、谷歌、百度等公司经典面试100题[第101-160题]整理:July、二零一一年三月九日。应网友承诺与要求，全新整理。转载，请注明出处。博主说明：此100题V0.2版，本人不再保证，还会提供答案。因为之前整理的微软100题，已经基本上，把题目都出尽了。见谅。--------------------------------------------

2014-03-27 10:29:32 938

转载十道海量数据处理面试题与十个方法大总结

海量数据处理：十道面试题与十个海量数据处理方法总结作者：July、youwang、yanxionglu。时间：二零一一年三月二十六日本文之总结：教你如何迅速秒杀掉：99%的海量数据处理面试题。有任何问题，欢迎随时交流、指正。出处：http://blog.csdn.net/v_JULY_v。第一部分、十道海量数据处理面试题1、海量日志数据

2014-03-27 10:29:14 1253

转载永久优化：微软技术面试100题第11-20题答案修正与优化

永久优化：微软技术面试100题第11-20题答案修正与优化作者：July、Sorehead、leeyunce、zhedahht等。时间：二零一一年四月四日。微博：http://weibo.com/julyweibo。出处：http://blog.csdn.net/v_JULY_v。--------------------------------------------

2014-03-27 10:28:49 919

转载全新整理：微软、Google等公司的面试题及解答、第161-170题

全新整理：微软、Google等公司非常好的面试题及解答、第161-170题整理：July。时间：二零一一年四月十日。微博：http://weibo.com/julyweibo。出处：http://blog.csdn.net/v_JULY_v。------------------------------- 引言此微软100题V0.2版的前60题

2014-03-27 10:28:40 1141

转载从Hadoop框架与MapReduce模式中谈海量数据处理（含淘宝技术架构）

从hadoop框架与MapReduce模式中谈海量数据处理前言几周前，当我最初听到，以致后来初次接触Hadoop与MapReduce这两个东西，我便稍显兴奋，觉得它们很是神秘，而神秘的东西常能勾起我的兴趣，在看过介绍它们的文章或论文之后，觉得Hadoop是一项富有趣味和挑战性的技术，且它还牵扯到了一个我更加感兴趣的话题：海量数据处理。由此，最近凡是空

2014-03-27 10:28:12 1311

转载九月十月百度人搜，阿里巴巴，腾讯华为笔试面试八十题(第331-410题)

九月十月百度人搜，阿里巴巴，腾讯华为小米搜狗笔试面试八十题引言自发表上一篇文章至今（事实上，上篇文章更新了近3个月之久），blog已经停了3个多月，而在那之前，自开博以来的21个月每月都不曾断过。正如上一篇文章支持向量机通俗导论（理解SVM的三层境界）末尾所述：”额，blog许久未有更新了，因为最近实在忙，无暇顾及blog。“与此同时，工作之余，也一直在

2014-03-26 10:03:49 3209

转载十月百度，阿里巴巴，迅雷搜狗最新面试七十题（第201-270题）

十月百度，阿里巴巴，迅雷搜狗最新面试七十题（第201-270题）引言当即早已进入10月份，十一过后，招聘，笔试，面试，求职渐趋火热。而在这一系列过程背后浮出的各大IT公司的笔试/面试题则蕴含着诸多思想与设计，细细把玩，思考一番亦能有不少收获。上个月，本博客着重整理九月腾讯，创新工场，淘宝等公司最新面试十三题，此次重点整理百度，阿里巴巴，迅雷和搜索等

2014-03-26 10:03:30 1109

转载微软面试100题2010年版全部答案集锦（含下载地址）

微软等数据结构+算法面试100题全部答案集锦作者：July、阿财。时间：二零一一年十月十三日。引言无私分享造就开源的辉煌。今是二零一一年十月十三日，明日14日即是本人刚好开博一周年。在一周年之际，特此分享出微软面试全部100题答案的完整版，以作为对本博客所有读者的回馈。一年之前的10月14日，一个名叫

2014-03-26 10:03:19 2301

转载十月下旬腾讯，网易游戏，百度迅雷校园招聘笔试题集锦(第271-330题)

十月下旬腾讯，网易游戏，百度最新校园招聘笔试题集锦(第271-330题)引言此文十月百度，阿里巴巴，迅雷搜狗最新面试十一题已经整理了最新的面试题70道，本文依次整理腾讯，网易游戏，百度等各大公司最新校园招聘的笔试题，后续将继续整理十月下旬的笔/面试题。腾讯2011.10.15校园招聘会笔试题1、下面的排序算法中，初始数据集的排列顺序对算法的性能无

2014-03-26 10:03:07 934

转载教你如何迅速秒杀掉：99%的海量数据处理面试题

教你如何迅速秒杀掉：99%的海量数据处理面试题作者：July出处：结构之法算法之道blog前言一般而言，标题含有“秒杀”，“99%”，“史上最全/最强”等词汇的往往都脱不了哗众取宠之嫌，但进一步来讲，如果读者读罢此文，却无任何收获，那么，我也甘愿背负这样的罪名，:-)，同时，此文可以看做是对这篇文章：十道海量数据处理面试题与十个方法大总结的

2014-03-26 10:02:57 887

转载 B树、B-树、B+树、B*树

B树即二叉搜索树： 1.所有非叶子结点至多拥有两个儿子（Left和Right）； 2.所有结点存储一个关键字； 3.非叶子结点的左指针指向小于其关键字的子树，右指针指向大于其关键字的子树；如： B树的搜索，从根结点开始，如果查询的关键字与结点的关

2014-03-26 10:00:23 597

转载 Bloom Filter算法及应用

1. 引言问题：有1000瓶药，但是其中有一瓶是有毒的，小白鼠吃了24小时后就会死掉，请问，在24小时找出有毒的药物，最少需要多少只小白鼠？答案是：10只，一只小白鼠可以表示2种状态，2^10可以表示1024种状态分析可参考：http://lzj0470.iteye.com/blog/657579通过二进制向量组来扩展描述的状态，Bloom Filter(BF)算法也是利用这个思想

2014-03-26 09:54:39 696

转载 Hive metastore三种存储方式

测试环境下Hive总出问题，metastore的配置有问题。抽了点时间，把Hive的meta数据几种存储方式都配置了下。Hive的meta 数据支持以下三种存储方式，其中两种属于本地存储，一种为远端存储。远端存储比较适合生产环境。Hive官方wiki详细介绍了这三种方式，链接为：Hive Metastore 。一、使用derby数据库存储元数据。这种方式是最简单的存储方式，只需

2014-03-26 09:53:33 1028

转载通用数据结构树—Java语言实现

树是一种常见的数据结构，得到了非常广泛的应用如文件系统、目录结构、霍夫曼编码等。根据树的特点及应用场景，我们通常会遇到二叉树、平衡树、红黑树、竞赛树、B树等。在C、C++语言中我们在实现树时需要用到指针，如在二叉树中，我们会用指针指向左子树和右子树。在Java语言中并没有指针，但道理是类似的，我们使用对象来引用左子树和右子树。下面是自己闲来无事时用Java语言实现的树，这不是一棵二

2014-03-26 09:53:10 1068

转载 shell脚本接收来自命令行传入的参数：

第一个参数用$1表示，第二个参数用$2表示，以此类推。。写一个简单的传参数脚本来测试：#!/bin/bashif [ $1 =="start" ] then echo"do start" elif [ $1 =="stop" ] then echo"do stop" else echo "Pleasemake sure the positon

2014-03-26 09:51:51 23241

转载 HBase性能优化方法总结

1. 表的设计1.1 Pre-Creating Regions默认情况下，在创建HBase表的时候会自动创建一个region分区，当导入数据的时候，所有的HBase客户端都向这一个region写数据，直到这个region足够大了才进行切分。一种可以加快批量写入速度的方法是通过预先创建一些空的regions，这样当数据写入HBase时，会按照region分区情况，在集群内做数据的负载均衡。

2014-03-26 09:51:06 788

转载 hive+hbase设计细节

前言近半年本人主要在倒腾数据，遇到海量数据去重的难题，曾经尝试过各种hivesql，然而随着数据量逐渐增大，处理耗时也越来越长，各种方案一一破产。2012年11月份提过使用HBase唯一主键的方案，随即做了相关预研（参看hive&hbase解决方案测评）。该方案由于HBase转化成hive表性能问题而搁浅。但在测评报告最后的总结中提到：或许我们可以选择数据“冷热”、以及部分字段切表来优化。

2014-03-26 09:50:44 1931

转载 Hive metastore三种存储方式

测试环境下Hive总出问题，metastore的配置有问题。抽了点时间，把Hive的meta数据几种存储方式都配置了下。Hive的meta数据支持以下三种存储方式，其中两种属于本地存储，一种为远端存储。远端存储比较适合生产环境。Hive官方wiki详细介绍了这三种方式，链接为：Hive Metastore。一、使用derby数据库存储元数据。这种方式是最简单的存储方式，只需要在

2014-03-26 09:50:11 757

翻译 hbase MapReduce程序样例入门

1、先看一个标准的hbase作为数据读取源和输出源的样例：View Code JAVA12345678Configuration conf = HBaseConfiguration.create();Job job = new Job(conf, "job name ");job.setJarByClass(test.class);Sc

2014-03-26 09:49:54 717

翻译 hbase 介绍

一、简介history started by chad walters and jim2006.11 G release paper on BigTable2007.2 inital HBase prototype created as Hadoop contrib2007.10 First useable Hbase2008

2014-03-26 09:49:25 650 1

原创 concat，concat_ws,group_concat的使用方法

concat函数使用方法：CONCAT(str1,str2,…)返回结果为连接参数产生的字符串。如有任何一个参数为NULL ，则返回值为 NULL。注意：如果所有参数均为非二进制字符串，则结果为非二进制字符串。如果自变量中含有任一二进制字符串，则结果为一个二进制字符串。一个数字参数被转化为与之相等的二进制字符串格式；若要避免这种情况，可使用显式类型 cast,

2014-03-26 09:48:19 864

转载修改MySQL默认数据库存放路径

Windows系统：把MySQL装在了C:\Program Files\MySQL\MySQL Server 5.0，默认的数据库文件是放在C:\Program Files\MySQL\MySQL Server 5.0\data下。但现在在D盘下做项目，因此一个数据库就放在了D盘，路经是这样的：D:\eclipse\workspace\pro1\lib\db。找到了my

2014-03-26 09:47:52 834

转载 MapReduce学习之二

Mapreduce学习2上一次是在windows上面搭建了hadoop环境，然后并在上面跑了mapreduce程序（wordcount），这一次在linux环境中来搭建hadoop环境，并安装eclipse便于今后开发。 1：安装虚拟机，装linux系统这里我安装的虚拟机是VMware WorkStation。Linux系统是ubuntu10.04。正常安装即可。

2014-03-26 09:47:16 478

翻译 Hive Partition简介

一、背景1、在Hive Select查询中一般会扫描整个表内容，会消耗很多时间做没必要的工作。有时候只需要扫描表中关心的一部分数据，因此建表时引入了partition概念2、分区表指的是在创建表时指定的partition的分区空间。3、如果需要创建有分区的表，需要在create表的时候调用可选参数partitioned by，详见表创建的语法结构。二、技术细节

2014-03-26 09:46:04 598

原创 java 时间的操作

java代码：//由今天的时间获取昨天的时间public static String getSpecifiedDayBefore(String specifiedDay) {Calendar c = Calendar.getInstance();Date date = null;try {date = new SimpleDateFormat("yyyyMMdd").par

2014-03-25 11:55:12 584

转载 MapReduce优化----优化方案着手点

Hadoop/MapReduce 优化方案从三个方面着手优化 :1. hadoop配置2. 设计mapred/job3. 代码级别.4. 改造hadoop一. conf/hadoop-site.xml配置.经验要求高, 特别需要结合实际情况.典型参数如复制因子,mapred.child.java.opts,mapred.tasktracker.map.t

2014-03-25 11:54:53 827

转载 MapReduce优化----几个优化

Cloudera提供给客户的服务内容之一就是调整和优化MapReduce job执行性能。MapReduce和HDFS组成一个复杂的分布式系统，并且它们运行着各式各样用户的代码，这样导致没有一个快速有效的规则来实现优化代码性能的目的。在我看来，调整cluster或job的运行更像一个医生对待病人一样，找出关键的“症状”，对于不同的症状有不同的诊断和处理方式。在医学领域

2014-03-25 11:53:54 2605

转载 MapReduce优化----6个基础知识

MapReduce任务的优化相信每个程序员在编程时都会问自己两个问题“我如何完成这个任务”，以及“怎么能让程序运行得更快”。同样，MapReduce计算模型的多次优化也是为了更好地解答这两个问题。MapReduce计算模型的优化涉及了方方面面的内容，但是主要集中在两个方面：一是计算性能方面的优化；二是I/O操作方面的优化。这其中，又包含六个方面的内容。1. 任务

2014-03-25 11:52:07 2237

转载 MapReduce优化----宏观hadoop

Google提出了一个令人兴奋的架构。MapReduce把任务分解成小任务，这些小任务可以在普通PC集群上并行执行。这种架构的一种开源实现是yahoo!的hadoop。目前国内在用此架构的公司为百度，淘宝，腾讯等，国外Amazon,Facebook,New York Times等已在使用。　　目前，很多internet服务都具有上百万的用户。这些服务产生海量的数据，如何针对海量数据进行分析

2014-03-25 11:50:57 1100

转载 MapReduce优化----参数的解释以及设置

map阶段优化参数：io.sort.mb（default 100）当map task开始运算，并产生中间数据时，其产生的中间结果并非直接就简单的写入磁盘。而是会利用到了内存buffer来进行已经产生的部分结果的缓存，并在内存buffer中进行一些预排序来优化整个map的性能。每一个map都会对应存在一个内存buffer,map会将已经产生的部分结果先写入到该buffer中，

2014-03-25 11:50:01 3103

转载 MapReduce优化----几点根本设置

在编写MapReduce应用程序时，除了最基本的Map模块、Reduce模块和驱动方法之外，用户还可以通过一些技巧优化作业以提高其性能。对用户来说，合理地在MapReduce作业中对程序进行优化，可以极大地提高作业的性能，减少作业执行时间。我们从以下几个方法分析MapReduce作业的优化方法。更多Hadoop相关信息见 http://www.linuxidc.com/search.a

2014-03-25 11:48:25 1398

转载 MapReduce优化----两点瓶颈

mapreduce程序效率的瓶颈在于两点：　　1：计算机性能　　2：I/O操作优化优化无非包括时间性能和空间性能两个方面，存在一下常见的优化策略：　　1：输入的文件尽量采用大文件　　　　众多的小文件会导致map数量众多，每个新的map任务都会造成一些性能的损失。所以可以将一些小文件在进行mapreduce操作前进行一些预处理，整合成大文件，或者直接采用Con

2014-03-25 11:45:20 2301

转载 MapReduce优化----hadoop的管道思想

摘要：在Hadoop系统的实现中，Map端的输出数据首先被溢写入本地磁盘，当本机任务完成后通知JobTracker，然后Reduce端在得到 JobTracker的通知后会发出HTTP请求，利用复制的方式从相应的Map端拉回其1 Hadoop管道改进思想在Hadoop系统的实现中，Map端的输出数据首先被溢写入本地磁盘，当本机任务完成后通知JobTracker，然后Reduce

2014-03-25 11:44:12 1807

转载 MapReduce优化----map和reduce的槽数的设定

1、修改mapreduce中map和reduce的槽数因为hadoop 的集群所有机器不可能完全硬件配置一样，那么不同节点机器负载也不一样，不同节点上并发的最大map和reduce数量也不一样。可以先试验下将每台tasktracker的map槽数调整到合适的数量，使得其能执行最大map数量。在对应节点机器上修改mapred-site.xml文件，添加如下参数：默认参数为2：在

2014-03-25 11:38:47 2850

转载 MapReduce优化----Shuffle过程剖析及性能优化

Shuffle过程剖析及性能优化MapReduce确保每个reducer的输入都按键排序。Shuffle：系统执行排序的过程—将map输出作为输入传给reducer（如图1、图2）。图1 图2如图1、图2所示，从map输出到reduce输入就是shuffle阶段。但实际执行过程远比上图所示复杂。Shuffle 是指从Map 产生输出开始，包括系统执行排序以及传送M

2014-03-25 11:38:03 3601

转载 MapReduce优化----基本参数的设定

基本参数要对你的MapReduce Task进行优化，首先我们需要了解一些基本的参数：dfs.block.size, dfs.blocksize：默认的HDFS文件系统的block大小，单位为byte。mapred.compress.map.output: map的输出是否压缩mapred.map/reduce.tasks.speculative.execution: 推测执

TA创建的收藏夹 TA关注的收藏夹

TA关注的人