自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

墨染百城

士别三日,当刮目相看

  • 博客(188)
  • 资源 (12)
  • 收藏
  • 关注

原创 Hive基于SQL创建漏斗模型

总结为了突出重点,总结就写在最前面了。从拿到需求开始,我们经历了以下步骤来完成工作:需求分析设计测试数据集及测试用例数据清洗需要实现测试其中数据清洗主要是做了两个工作:去掉用户每一次访问中重复的页面记录,只保留每个页面的最后一次访问记录。将用户访问记录进行合并,将所有访问过的页面和访问时间整合到1行当中。实现的判断依据如下:乱序漏斗:访问的页面数小于4,或者页面顺序不对。顺序漏

2017-03-26 17:16:41 5952

原创 将Hive启动为服务

我们之前使用的Shell方式与Hive交互只是Hive交互方式中的一种,还有一种就是将Hive启动为服务,然后运行在一个节点上,那么剩下的节点就可以使用客户端来连接它,从而也可以使用Hive的数据分析服务。前台模式可以使用下面的命令来将Hive启动为服务。/root/apps/hive-1.2.1/bin/hiveserver2后台模式也可以用下面的命令在后台启动Hive服务。nohup bin/

2017-03-26 00:18:27 1895

原创 Hive安装&初体验

下载&解压从这个地址下载Hive1.2.1 https://mirrors.tuna.tsinghua.edu.cn/apache/hive/hive-1.2.1/apache-hive-1.2.1-bin.tar.gz然后使用下面的命令解压到指定目录下面:tar -zxvf apache-hive-1.2.1-bin.tar.gz -C /root/apps/然后使用下面的命令改一下名字:mv

2017-03-25 23:49:31 363

原创 【LeetCode】121. Best Time to Buy and Sell Stock

问题描述问题链接:https://leetcode.com/problems/best-time-to-buy-and-sell-stock/#/descriptionSay you have an array for which the ith element is the price of a given stock on day i.If you were only permitted to

2017-03-25 13:16:37 393

原创 【LeetCode】常用算法之动态规划

一直很想学习动态规划算法,虽然也在课上听老师讲过背包问题啊,旅行商问题啊,但是都是懵懵懂懂的匆匆而过,一直也没有学会。这次刷LeetCode也给了我一个机会来弥补之前的遗憾。参考资料http://blog.csdn.net/baidu_28312631/article/details/47418773http://www.hawstein.com/posts/dp-novice-to-advance

2017-03-25 11:04:36 633

原创 Python面试题整理

参考资料http://python.jobbole.com/85231/http://blog.csdn.net/alvine008/article/details/39229057问题1到底什么是Python?你可以在回答中与其他技术进行对比(也鼓励这样做)。答案下面是一些关键点:Python是一种解释型语言。这就是说,与C语言和C的衍生语言不同,Python代码在运行之前不需要编译。其他解释型

2017-03-24 11:26:16 665

原创 技术面试书单及常见问题

在知乎听了一场Live,推荐了程序员的面试书单,整理一下,慢慢看起来。C/C++《c++ primer》《c primer plus》《effective c++》《more effective c++》Java《Java 核心技术》 卷I、II《深入理解Java虚拟机》基础操作系统、数据结构与算法、计算机网络、数据库、编译原理 看教材网络TCP: 《TCP/IP详解 卷一》(网络

2017-03-24 10:13:02 1197

原创 接受电话面试时有哪些要注意的

今天下午接到HR的电话,告诉我明天安排一场电话面试。之前一直没有电话面试的经验,难免有点小紧张。在知乎上搜索了相关问题,把要点记录在这里,以备查询。参考资料https://www.zhihu.com/question/19629949要点备注提前准备面试重点就是要找一个自己熟悉的、安静的、电话信号好的房间,一方面让自己有安全感不容易紧张,另一方面保证自己发挥稳定。把自己的简历放在面前,打印件或者笔

2017-03-23 17:36:26 3323

原创 【LeetCode】462. Minimum Moves to Equal Array Elements II

问题描述问题链接:https://leetcode.com/problems/minimum-moves-to-equal-array-elements-ii/#/descriptionGiven a non-empty integer array, find the minimum number of moves required to make all array elements equal,

2017-03-23 13:32:27 459

原创 【LeetCode】常用算法之Quick Select

之前刚刚实现了快速排序算法。现在还有一个要求就是找到一个序列中第K大的数。我们当然可以用先排序再取值的方法来做,这样的时间复杂度为O(NlogN)。或者使用heap_sort,或者优先队列,则复杂度是O(NlogK)。那么有没有一种更加高效的方式呢?答案是肯定的。可以使用快速排序的一个变种quick_select,则平均复杂度为O(N),最坏复杂度为O(N^2)。算法思想通过一趟快排过后,序列将被分

2017-03-23 12:33:17 13384 1

原创 【LeetCode】常用算法之快速排序

今天刷题的时候要用到快排,然后发现居然写不出来了,好沮丧啊。看来基础知识还需要好好加强,先把快排补起来。简介快速排序由C. A. R. Hoare在1962年提出。它的基本思想是:通过一趟排序将要排序的数据分割成独立的两部分,其中一部分的所有数据都比另外一部分的所有数据都要小,然后再按此方法对这两部分数据分别进行快速排序,整个排序过程可以递归进行,以此达到整个数据变成有序序列。算法步骤设要排序的数组

2017-03-23 11:51:18 3081

原创 Hive及其工作机制简介

Hive是一个基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一个表。并提供类SQL查询功能。数据仓库数据库是用来支撑在线联机业务的。比如页面上的数据的展示,保存客户操作产生的数据。这类要求变更是实时的、事务的。数据仓库:如果联机数据库中的数据太大了,需要将历史信息导入到离线的仓库中。可以存入各种各样的系统的数据。可以按照一定主题来组织这些表。每一个主题中的数据可能结构跟系统的表不同

2017-03-22 22:34:57 2230

原创 Hadoop HA的搭建

我们目前只有4台机器,所以需要好好规划一下机器的角色。如果机器多最好还是分得开一点 机器名 角色 amaster NameNodeResourceManagerZooKeeper anode1 NameNodeZooKeeperJournalNode anode2 DataNodeNodeManagerZooKeeperJournalNode anode3 Da

2017-03-22 21:15:34 446

原创 Hadoop NameNode的Federation

在极端情况下,HDFS上的文件特别多,内存不够用,之前的HA本质上还是一个NameNode,为了应对这种需求就需要多个NameNode。此时不同的NameNode持有的数据都不一样,都在同时对外提供服务。为了保持服务的一致性,可以分目录来进行区分。比如分为/ns1和/ns2,就像两个分区那样。是一个逻辑路径,映射到实际的hdfs路径下面。此时,两个NameNode就变成了Federation。Fed

2017-03-22 19:09:10 580

原创 Hadoop中的高可用机制

HDFS的高可用可用性用小时来衡量,如:7*24小时、364 * 24高可用不能简单的通过keepalive来进行NameNode的高可用。因为NameNode需要有大量的状态信息维护。可行的方法:两个NameNode,一个对外工作(active),一个后补(standby),这就涉及到元数据同步的问题。可以将edits保存到第三方,standy的NameNode即可收到edits,从而保持元数据的

2017-03-22 18:45:00 980

原创 【LeetCode】389. Find the Difference

问题描述问题链接:https://leetcode.com/problems/find-the-difference/#/descriptionGiven two strings s and t which consist of only lowercase letters.String t is generated by random shuffling string s and then add

2017-03-22 11:01:38 341

原创 【LeetCode】495. Teemo Attacking

问题描述问题链接:https://leetcode.com/problems/teemo-attacking/#/descriptionIn LLP world, there is a hero called Teemo and his attacking can make his enemy Ashe be in poisoned condition. Now, given the Teemo’s

2017-03-22 10:41:43 445

原创 【LeetCode】104. Maximum Depth of Binary Tree

问题描述问题链接:https://leetcode.com/problems/maximum-depth-of-binary-tree/#/descriptionGiven a binary tree, find its maximum depth.The maximum depth is the number of nodes along the longest path from the roo

2017-03-22 09:42:24 582

原创 【LeetCode】508. Most Frequent Subtree Sum

问题描述问题链接:https://leetcode.com/problems/most-frequent-subtree-sum/#/descriptionGiven the root of a tree, you are asked to find the most frequent subtree sum. The subtree sum of a node is defined as the

2017-03-22 09:06:07 389

原创 【LeetCode】529. Minesweeper

问题描述问题链接:https://leetcode.com/problems/minesweeper/#/descriptionLet’s play the minesweeper game (Wikipedia, online game)!You are given a 2D char matrix representing the game board. ‘M’ represents an un

2017-03-21 23:56:18 716

原创 在Ubuntu下后台持续运行Python程序

由于项目的需要,现在需要通过一种方式,让Python程序能够在会话退出后继续在后台运行,并将屏幕的输出重定向到文件中去。本文的示例代码已经上传到http://download.csdn.net/detail/mrbcy/9789067参考资料http://blog.csdn.net/loonger_leon/article/details/5764552http://www.cnblogs.com/

2017-03-21 21:46:59 24755 3

原创 【LeetCode】538. Convert BST to Greater Tree

问题描述问题链接:https://leetcode.com/problems/convert-bst-to-greater-tree/#/descriptionGiven a Binary Search Tree (BST), convert it to a Greater Tree such that every key of the original BST is changed to the

2017-03-21 13:02:11 3767

原创 【LeetCode】442. Find All Duplicates in an Array

问题描述问题链接:https://leetcode.com/problems/binary-watch/#/descriptionGiven an array of integers, 1 ≤ a[i] ≤ n (n = size of array), some elements appear twice and others appear once.Find all the elements th

2017-03-21 11:33:36 445

原创 【LeetCode】357. Count Numbers with Unique Digits

问题描述问题链接:https://leetcode.com/problems/count-numbers-with-unique-digits/#/descriptionGiven a non-negative integer n, count all numbers with unique digits, x, where 0 ≤ x < 10n.Example:Given n = 2, retu

2017-03-21 09:30:24 304

原创 Map Side Join解决数据倾斜

如果Mapper输出的一些Key特别多,另一些Key特别少就会产生数据倾斜。造成一些Reducer特别忙,一些则比较闲。那么要如何解决这个问题呢?先来考虑一下我们为什么要把数据发给Reducer。因为我们需要把id相同的放在一起才能进行拼接,所以才需要Reducer。如果我们不需要Reducer就能做拼接,就不存在数据倾斜了。为此,我们需要为每一个MapTask准备一个表的全表。这种机制叫做Map

2017-03-20 16:32:15 579

原创 【LeetCode】401. Binary Watch

问题描述问题链接:https://leetcode.com/problems/binary-watch/#/descriptionA binary watch has 4 LEDs on the top which represent the hours (0-11), and the 6 LEDs on the bottom represent the minutes (0-59).Each LE

2017-03-20 14:51:05 327

原创 【LeetCode】常用算法之回溯法

参考资料http://www.cnblogs.com/steven_oyj/archive/2010/05/22/1741376.html概念回溯算法实际上一个类似枚举的搜索尝试过程,主要是在搜索尝试过程中寻找问题的解,当发现已不满足求解条件时,就“回溯”返回,尝试别的路径。回溯法是一种选优搜索法,按选优条件向前搜索,以达到目标。但当探索到某一步时,发现原先选择并不优或达不到目标,就退回一步重新选择

2017-03-20 11:22:58 450

原创 【LeetCode】526. Beautiful Arrangement

问题描述问题链接:https://leetcode.com/problems/beautiful-arrangement/#/descriptionSuppose you have N integers from 1 to N. We define a beautiful arrangement as an array that is constructed by these N numbers s

2017-03-20 11:21:58 1045

原创 如何写好简历

HR看重的点稳定性胜任潜力HR会怎么看简历学校实习经历社团经历成绩HR会更看重工作能力。简历的总体要求强调实力节约HR时间不犯低级错误常见问题如果有以下问题,可以视为不及格。简历是直接从招聘网站抄的有错别字简历有复杂底纹简历颜色超过3种简历超过5页或者1页不到行间距、项目符号不一致模块划分不能做到清晰,一目了然如果有以下问题,可以视为及格,但还不够好。照片

2017-03-19 11:16:47 882

原创 【LeetCode】448. Find All Numbers Disappeared in an Array

问题描述问题链接:https://leetcode.com/problems/find-all-numbers-disappeared-in-an-array/#/descriptionGiven an array of integers where 1 ≤ a[i] ≤ n (n = size of array), some elements appear twice and others app

2017-03-19 10:15:07 916

原创 【书山有路】代码大全第二版 第1章

在知乎上看到一句话,觉得很有触动。——记者:专家有什么秘方是新手不知道的吗?——萧井陌:[并没有,专家们已经写在书上了,你所需要做的就是思考相信并遵从]以前曾经也尝试度过代码大全,但是中途就放弃了。但是在阅读前几章的过程中已经很有收获了。这次重读,希望能够把书看完。也许书中一些做法在现在已经有些过时,但我认为大部分实践还是值得我们遵从。毫无疑问,阅读这本书是一项非常耗时,也有点艰巨的工作,也许我没有

2017-03-18 23:37:08 347

原创 MapReduce中实现Join操作

需求订单数据表t_order的数据如下: id date pid amount 1001 20150710 P0001 2 1002 20150710 P0001 2 1002 20150710 P0002 3商品信息表t_product的数据如下: id name categroy_id price P0001

2017-03-18 23:06:41 530

原创 MR程序中查看使用System.out.print()输出的内容

由于我们的MR程序一般是运行在集群上的,因此在MR程序中写的System.out.print()的内容是不会打印在屏幕上的,只能去NodeManager的日志中查看。具体的路径如下:$HADOOP_HOME/logs/userlogs/<job_id>/<container_id>/一般会有下面三个文件:-rw-r--r-- 1 root root 1710 3月 11 23:34 stder

2017-03-18 21:27:04 1720

原创 【LeetCode】515. Find Largest Value in Each Tree Row

问题描述问题链接:https://leetcode.com/problems/find-largest-value-in-each-tree-row/#/descriptionYou need to find the largest value in each row of a binary tree.Example:Input: 1 / \ 3

2017-03-18 21:08:34 1039

原创 Mproxy项目实录第7天

关于这个系列这个项目实录系列是记录Mproxy项目的整个开发流程。项目最终的目标是开发一套代理服务器的API。这个系列中会记录项目的需求、设计、验证、实现、升级等等,包括设计决策的依据,开发过程中的各种坑。希望和大家共同交流,一起进步。项目的源码我会同步更新到GitHub,项目地址:https://github.com/mrbcy/Mproxy。系列地址:Mproxy项目实录第1天Mproxy项目实

2017-03-17 18:33:14 16456

原创 【LeetCode】520. Detect Capital

问题描述问题链接:https://leetcode.com/problems/single-number/#/descriptionGiven a word, you need to judge whether the usage of capitals in it is right or not.We define the usage of capitals in a word to be rig

2017-03-17 11:08:33 1425

原创 【LeetCode】136. Single Number

问题描述问题链接:https://leetcode.com/problems/single-number/#/descriptionGiven an array of integers, every element appears twice except for one. Find that single one.Note:Your algorithm should have a linear r

2017-03-17 10:50:32 797

原创 【LeetCode】413. Arithmetic Slices

问题描述问题链接:https://leetcode.com/problems/arithmetic-slices/#/descriptionA sequence of number is called arithmetic if it consists of at least three elements and if the difference between any two consecuti

2017-03-17 10:14:58 354

原创 如何在Windows中运行MapReduce程序

Windows上配置环境变量解压Hadoop,然后把Hadoop的根目录配置到HADOOP_HOME环境变量里面然后把HADOOP_HOME/lib和HADOOP_HOME/bin配置到path里面。替换bin目录要在Windows运行MapReduce,你首先需要编译Windows版的Hadoop的应用程序。然后把官网下载的Hadoop目录下面的bin目录替换成Windows下编译的Hadoop的

2017-03-16 22:42:19 2832

原创 YARN的运行机制

YARN是运算资源的调度系统。运算资源包括运行程序的jar包,配置文件,CPU,内存,IO等。使用了linux的资源隔离机制cgroup实现了CPU和内存的隔离。它的运行容器叫做container。每个container中包含了一定的CPU+内存。docker,openstack等虚拟化框架都使用了cgroup。首先,客户端启动后获取一个YARNRunner,它本质上是一个动态代理对象。它负责将任务

2017-03-16 22:08:18 985

IKAnalyzer2012_FF 区分大小写版本

IKAnalyzer2012_FF默认分词是不区分大小写的,对源码进行了修改,这个版本的jar包会区分大小写。http://blog.csdn.net/koproblem/article/details/70046368

2017-06-20

Ubuntu下后台持续运行Python程序

是我的博客 在Ubuntu下后台持续运行Python程序 的配套代码,包含了启动和停止脚本

2017-03-21

笑话爬虫 将笑话存储到文件和MySQL

我的博客 使用Scrapy爬取笑话并存储到文件和MySQL 的配套源码

2017-02-27

Hadoop自己的Rpc框架使用Demo

Hadoop自己的Rpc框架使用Demo。可以在自己的项目中用Hadoop的Rpc框架了。

2017-02-22

hadoop2.7.3 for win10 64位 bin目录

在Windows下面使用Hadoop Java API进行开发的时候需要编译Windows版本的Hadoop,然后把下载的Hadoop/bin目录替换掉。这个资源是Windows10 64位系统下编译的hadoop 2.7.3的bin目录。下载后即可替换使用。

2017-02-19

Mrpc源码及Sample

我的自定义Rpc框架Mrpc的源代码和Sample

2017-02-14

TDD-learn-demo2

我的博客 学习TDD(4)--实例2:基于ZooKeeper的服务器注册和探测类[实战ServerRegister]及 学习TDD(5)--实例2:基于ZooKeeper的服务器注册和探测类[实战ServerDetector] 的配套代码

2017-02-12

TDD-learn-demo1

我的博客 学习TDD(2)--实例:ProtoStuffUtil类的测试 的配套代码

2017-02-07

Mrpc Demo4

我的Mrpc框架功能实现demo4的代码

2017-02-06

Mrpc Demo3

我的Mrpc框架功能实现demo3的代码

2017-02-06

Mrpc Demo2

我的Mrpc框架功能实现demo2的代码

2017-02-05

Mrpc Demo1

我的Mrpc框架功能实现demo1的代码

2017-02-05

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除