鲍礼彬的CSDN博客 ~_~

不会修电脑的程序员不是好程序员~ https://github.com/baolibin (求Follow) ，女朋友的CSDN博客地址：https://blog.csdn.net/yangfengling1023

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

转载 Java中HashMap,LinkedHashMap,TreeMap的区别

java为数据结构中的映射定义了一个接口java.util.Map;它有四个实现类,分别是HashMap Hashtable LinkedHashMap 和TreeMapMap主要用于存储健值对，根据键得到值，因此不允许键重复(重复了覆盖了),但允许值重复。Hashmap 是一个最常用的Map,它根据键的HashCode 值存储数据,根据键可以直接获取它的值，具有很快的访问速度，遍历时，取

2015-07-19 21:55:17 963

转载 HBase Rowkey的散列与预分区设计

HBase中，表会被划分为1...n个Region，被托管在RegionServer中。Region二个重要的属性:StartKey与EndKey表示这个Region维护的rowKey范围，当我们要读/写数据时，如果rowKey落在某个start-end key范围内，那么就会定位到目标region并且读/写到相关的数据。简单地说，有那么一点点类似人群划分，1-15岁为小朋友,16-39岁为年轻人

2015-07-10 17:36:50 877

转载 FP-Tree算法的实现

FP-Tree算法的实现在关联规则挖掘领域最经典的算法法是Apriori，其致命的缺点是需要多次扫描事务数据库。于是人们提出了各种裁剪（prune）数据集的方法以减少I/O开支，韩嘉炜老师的FP-Tree算法就是其中非常高效的一种。支持度和置信度严格地说Apriori和FP-Tree都是寻找频繁项集的算法，频繁项集就是所谓的“支持度”比较高的项集，下面解释一下支持度和置

2015-07-07 01:29:41 1449

转载优酷面试题

mapred找共同朋友，数据格式如下A B C D E FB A C D EC A B ED A B EE A B C DF A第一字母表示本人，其他是他的朋友，找出有共同朋友的人，和共同朋友是谁运行结果AB E:C:DAC E:BAD B:EAE C:B:DBC A:EBD

2015-07-06 17:33:31 1211

转载 Hive面试题—理清hive应用思路

Hive面试题—理清hive应用思路问题：有一张很大的表：TRLOG该表大概有2T左右。[sql] view plaincopyTRLOG： CREATE TABLE TRLOG (PLATFORM string, USER_ID int, CLICK_TIME string, CLICK_URL string)

2015-07-06 14:29:50 5917 1

转载 Hbase总结（六）hbase37个笔试题

原文地址：http://blog.csdn.net/lifuxiangcaohui/article/details/39961643以下试题是摘自互联网的基础上自己加了选项说明解释便于自己以后看时方便节省时间1. HBase来源于哪篇博文？ CA The Google File SystemB MapReduceC BigTable

2015-07-06 01:04:14 1286

转载 JVM基础：深入学习JVM堆与JVM栈

转自：http://developer.51cto.com/art/201009/227812.htmJVM栈解决程序的运行问题，即程序如何执行，或者说如何处理数据;JVM堆解决的是数据存储的问题，即数据怎么放、放在哪儿，另外JVM堆中存的是对象。JVM栈中存的是基本数据类型和JVM堆中对象的引用。JVM基础概念：JVM堆与JVM栈数据类型Java虚拟机中，数据类型可以分为两类：基

2015-07-06 00:18:57 1059

转载 HBase的LSM树

HBase的LSM树讲LSM树之前，需要提下三种基本的存储引擎，这样才能清楚LSM树的由来：哈希存储引擎是哈希表的持久化实现，支持增、删、改以及随机读取操作，但不支持顺序扫描，对应的存储系统为key-value存储系统。对于key-value的插入以及查询，哈希表的复杂度都是O(1)，明显比树的操作O(n)快,如果不需要有序的遍历数据，哈希表就是your Mr.Righ

2015-07-05 22:57:31 1266

原创桥接模式配置

目的效果：为虚拟机设置IP，并且可以通过远程软件连接、可以访问外网。虚拟机设置为桥接模式，启用VM1网卡，IPv4设置为：远程软件可以连接并可以ping通百度：注意：windows和linux不能在同一个网段。如果配成进主机模式：1、

2015-07-05 20:35:32 813

原创 2、es索引创建及查询

1、启动es：[root@baozi elasticsearch-1.4.4]# bin/service/elasticsearch startStarting Elasticsearch...Waiting for Elasticsearch......running: PID:2409[root@baozi elasticsearch-1.4.4]#2、向es里

2015-07-05 20:27:37 10542

原创 1、Elasticsearch安装

1、软件准备：-rw-r--r--. 1 root root 27900004 5月 24 15:32 elasticsearch-1.4.4.tar.gz-rw-r--r--. 1 root root 2054208 5月 24 15:31 elasticsearch-servicewrapper-master.zip2、解压启动：[root@baozi l

2015-07-05 20:26:23 741

转载 hive权限控制介绍

问题导读1.hive权限控制需要配置那个配置文件？2.Hive授权的核心是什么？3.如何实现角色的授权和撤销？Hive从0.10版本(包含0.10版本)以后可以通过元数据来控制权限，Hive-0.10之前的版本对权限的控制主要是通过Linux的用户和用户组来控制，不能对Hive表的CREATE、SELECT、DROP等操作进行控制，当然Hive基于元数据来控制权限也不

2015-07-04 22:37:12 1328

转载 Hadoop Streaming 编程

1、概述Hadoop Streaming是Hadoop提供的一个编程工具，它允许用户使用任何可执行文件或者脚本文件作为Mapper和Reducer，例如：采用shell脚本语言中的一些命令作为mapper和reducer（cat作为mapper，wc作为reducer）$HADOOP_HOME/bin/hadoop jar $HADOOP_HOME/contrib

2015-07-04 20:51:38 899

转载 hadoop MapReduce - 从作业、任务（task）、管理员角度调优

1.Combiner的作用是什么？2.作业级别参数如何调优？3.任务及管理员级别有哪些可以调优？Hadoop为用户作业提供了多种可配置的参数，以允许用户根据作业特点调整这些参数值使作业运行效率达到最优。一应用程序编写规范1.设置Combiner 对于一大批MapReduce程序，如果可以设置一个Combiner,那么对于提高作业性能是十分有帮助的

2015-07-04 20:15:59 1244

转载 SQL中Group By的使用

SQL中Group By的使用 1、概述2、原始表3、简单Group By4、Group By 和 Order By5、Group By中Select指定的字段限制6、Group By All7、Group By与聚合函数8、Having与Where的区别9、Compute 和 Compute By1、概述“Group By”从字面意义上理解就是根据“By”指定的规

2015-07-03 19:01:15 635

转载 hadoop面试题总结1

1. 下面哪个程序负责 HDFS 数据存储。a)NameNode b)Jobtracker c)Datanode d)secondaryNameNode e)tasktracker答案C datanode2. HDfS 中的 block 默认保存几份？a)3 份 b)2 份c)1 份d)不确定答案A默认3分3. 下列哪个程序通常与 NameNode 在一

2015-07-03 17:26:11 1435

转载 Hadoop层级队列组织方式

在Hadoop 0.20.x版本或者更早的版本，Hadoop采用了平级队列组织方式，在这种组织方式中，管理员可将用户分到若干个扁平队列中，在每个队列中，可指定一个或几个队列管理员管理这些用户，比如杀死任意用户的作业，修改任意用户作业的优先级。然而，从资源管理角度看，仅仅按照队列组织用户是不够的，还需要将资源划分到这几个队列中，并按照一定的策略完成资源分配，这就需要Hadoop作业调度器的支持。总之

2015-07-03 15:50:02 1302

转载大数据性能调优之HBase的RowKey设计

1 概述HBase是一个分布式的、面向列的数据库，它和一般关系型数据库的最大区别是：HBase很适合于存储非结构化的数据，还有就是它基于列的而不是基于行的模式。既然HBase是采用KeyValue的列存储，那Rowkey就是KeyValue的Key了，表示唯一一行。Rowkey也是一段二进制码流，最大长度为64KB，内容可以由使用的用户自定义。数据加载时，一般也是根据Rowke

2015-07-02 20:39:26 1586

转载 mapreduce的二次排序 SecondarySort

关于二次排序主要涉及到这么几个东西：在0.20.0 以前使用的是setPartitionerClass setOutputkeyComparatorClasssetOutputValueGroupingComparator 在0.20.0以后使用是job.setPartitionerClass(Partitioner p);job.setSortCompara

2015-07-02 18:27:14 589

转载 Hadoop中两表JOIN的处理方法

1. 概述在传统数据库（如：MYSQL）中，JOIN操作是非常常见且非常耗时的。而在HADOOP中进行JOIN操作，同样常见且耗时，由于Hadoop的独特设计思想，当进行JOIN操作时，有一些特殊的技巧。本文首先介绍了Hadoop上通常的JOIN实现方法，然后给出了几种针对不同输入数据集的优化方法。2. 常见的join方法介绍假设要进行join的数据分别来自

2015-07-01 21:36:07 720

转载 Hive教程之metastore的三种模式

原文地址：http://www.micmiu.com/bigdata/hive/hive-metastore-config/Hive中metastore（元数据存储）的三种方式：内嵌Derby方式Local方式Remote方式[一]、内嵌Derby方式这个是Hive默认的启动模式，一般用于单元测试，这种存储方式有一个缺点：在同一时间只能有一个

2015-07-01 14:33:45 3154

struts1.3.10all.zip

使用此包和马士兵老师讲课所用的包一致，方便web 人员下载

2014-08-07

HTML、CSS、JavaScript网页制作从入门到精通sample

HTML、CSS、JavaScript网页制作从入门到精通sample 是网页制作基础，很好的一本书

2014-06-21

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人