2014年03月_蓝天的IT生涯

原创算法导论学习总结-基础篇(一)

一、基础知识(概念)总结：1.渐进记号：(1).大O记号：大O记号给出函数的渐进上界。定义：O(g(n))={f(n):存在正常量 c 和 n0，使得对所有 n>=n0,有 0(2).大Ω记号:正如O记号提供了一个函数的渐进上界，Ω记号提供了渐进下界。定义：Ω(g(n)) = {f(n):存在正常量c和n0，使得所有n>=n0,有0(3).大Θ记号：大Θ记号给出函数的渐进紧确

2014-03-31 22:48:46 3380

转载【算法学习】线性时间排序-计数排序、基数排序和桶排序详解与编程实现

计数排序计数排序假设n个输入元素中的每一个都是介于0到k之间的整数。此处k为某个整数（输入数据在一个小范围内）。算法思想计数排序的基本思想是对每一个输入元素x，确定出小于x的元素的个数。然后再将x直接放置在它在最终输出数组中的位置上。由于数组中可能有相等的数，在处理时需要注意。时间复杂度和空间复杂度分析

2014-03-31 21:18:03 740

转载计数排序算法详解

经典排序算法 - 计数排序Counting sort注意与基数排序区分,这是两个不同的排序计数排序的过程类似小学选班干部的过程,如某某人10票,作者9票,那某某人是班长,作者是副班长大体分两部分,第一部分是拉选票和投票,第二部分是根据你的票数入桶看下具体的过程,一共需要三个数组,分别是待排数组,票箱数组,和桶数组var unsorted = new int[

2014-03-31 21:11:53 952

原创 Spark基础知识学习分享

一、Spark基础知识梳理1.Spark是什么？Spark是一个通用的并行计算框架，由UCBerkeley的AMP实验室开发。Spark基于map reduce 算法模式实现的分布式计算，拥有Hadoop MapReduce所具有的优点；但不同于Hadoop MapReduce的是Job中间输出和结果可以保存在内存中，从而不再需要读写HDFS，节省了磁盘IO耗时，号称性能比Hadoop

2014-03-29 18:25:06 5221 2

转载 Spark RDDs(弹性分布式数据集):为内存中的集群计算设计的容错抽象

本文是阅读《Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing》过程中，抽了局部一些关注点翻译出来的文章，没有将全文都翻译。希望这些碎片化甚至不通顺的记录，可以帮助读者取代阅读原论文。论文地址http://www.cs.berkeley.edu/~mat

2014-03-29 16:44:17 1053

转载将 Hadoop YARN 发扬广大

Yet Another Resource Negotiator 简介大数据不断在演变，因而它的处理框架也在不断演变。Apache Hadoop 于 2005 年推出，提供了核心的 MapReduce 处理引擎来支持大规模数据工作负载的分布式处理。7 年后的今天，Hadoop 正在经历着一次彻底检查。通过这次检查，得到了一个更加通用的 Hadoop 框架，不仅支持 MapRedu

2014-03-28 13:18:39 741

转载 YARN的基本概念

最近一段时间，经常看到有人在微博上说，“很多公司暂时用不到YARN，因为一般公司的集群规模并未像Yahoo、Facebook那样达到几千台，甚至将来几万台”。这完全是一种错误的观念，在Hadoop高速发展的时代，必须更正。实际上，上述观念只看到了YARN的扩展性（Scalability），扩展性是可用可不用的特性，中小型公司将YARN部署到小集群（按照IBM观点，集群规模小于200

2014-03-27 22:42:57 1092

转载 Spark：一个高效的分布式计算系统

什么是SparkSpark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架，Spark基于map reduce算法实现的分布式计算，拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是Job中间输出和结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭

2014-03-27 00:19:36 1106

转载 Spark - 大数据Big Data处理框架

Spark是一个针对超大数据集合的低延迟的集群分布式计算系统，比MapReducer快40倍左右。　　Spark是hadoop的升级版本，Hadoop作为第一代产品使用HDFS，第二代加入了Cache来保存中间计算结果，并能适时主动推Map/Reduce任务，第三代就是Spark倡导的流Streaming。　　Spark兼容Hadoop的APi，能够读写Hadoop的HDFS HB

2014-03-25 13:26:15 1260

转载 java NIO

Selector：java nio无阻塞io实现的关键。阻塞io和无阻塞io：阻塞io是指jdk1.4之前版本面向流的io，服务端需要对每个请求建立一堆线程等待请求，而客户端发送请求后，先咨询服务端是否有线程相应，如果没有则会一直等待或者遭到拒绝请求，如果有的话，客户端会线程会等待请求结束后才继续执行。当并发量大，而后端服务或客户端处理数据慢时就会产生产生大量线程处于等待中，即上

2014-03-23 10:47:39 782

原创 Android基础知识总结

一、基础知识:1.Android SDK：Android SDK包含了一个调试器、库、一个模拟器、文档、实例代码和教程。2.ADT: 用于Eclipse的Android开发工具（Android Development Tools，ADT）插件是对Eclipse IDE的扩展，用以支持android应用程序的创建和调试。3.AVD(Android Virtual Device): AVD

2014-03-22 17:27:35 3334 3

转载算法导论之符号标记

前言在学习计算机算法时，知道插入排序的时间复杂度是O(n2)，那O记号到底是什么意思呢？本文主要介绍几个算法分析时用到的记号。大O记号定义：O(g(n)) = { f(n) : 存在正常数c和n0 ，使对所有的n >= n0，都有 0 ，则可以表示为 f(n) = O(n2)。证明：要使得 0 存在c = 9/2

2014-03-21 09:21:09 1400

转载 Android基础知识总结.

Android工程常见目录结构说明：res：放置应用程序用到的资源文件。其包含(Drawable，layout，values等目录)。当这个目录下的文件发生变化时，src目录下面的R。java就会自动发生变化。assets：主要放置多媒体等数据文件。res/drawable:放置应用到的图片资源。res/layout:放置一些与UI相应的布局文件，都是xm

2014-03-19 12:56:51 667

转载 Android基本组件及声明周期介绍

Android四大基本组件分别是Activity，Service服务,Content Provider内容提供者，BroadcastReceiver广播接收器。一:了解四大基本组件Activity :应用程序中，一个Activity通常就是一个单独的屏幕，它上面可以显示一些控件也可以监听并处理用户的事件做出响应。Activity之间通过Intent进行通信。在Int

2014-03-17 22:33:54 631

转载 Android中Toast的用法简介

Toast是Android中用来显示显示信息的一种机制，和Dialog不一样的是，Toast是没有焦点的，而且Toast显示的时间有限，过一定的时间就会自动消失。下面用一个实例来看看如何使用Toast。 1.默认效果代码Toast.makeText(getApplicationContext(), "默认Toast样式", Toast.LENGTH_SHORT).s

2014-03-16 15:55:27 570

转载 Android 布局之layout

线性布局相对很简单，也比较容易理解，我们先来看下面这段代码： android:orientation="vertical" android:layout_width="fill_parent" android:layout_height="fill_parent"> android:orientation="horizontal"

2014-03-16 10:43:02 632

转载引用的几种概念

赞一下！转了：场景学习理解了一下：SoftReference：实现非持久化缓存，允许在内存不足时，回收对象，缓存失效、内存复用。PhantomReference必须要和ReferenceQueue组合使用，当虚引用的对象被回收器触及时，虚引用就会被放入队列，可以用虚引用作为一种通知机制。即编程人员可在引用被回收之前做点什么，感觉这个场景作用就像是Hook的作用。WeaKRefere

2014-03-15 21:50:04 713

转载下一代 Hadoop YARN 简介：相比于MRv1，YARN的优势

最近一段时间，经常看到有人在微博上说，“很多公司暂时用不到YARN，因为一般公司的集群规模并未像Yahoo、Facebook那样达到几千台，甚至将来几万台”。这完全是一种错误的观念，在Hadoop高速发展的时代，必须更正。实际上，上述观念只看到了YARN的扩展性（Scalability），扩展性是可用可不用的特性，中小型公司将YARN部署到小集群（按照IBM观点，集群规模小于200台的称为

2014-03-11 22:56:58 710

转载 Android Activity 中 onActivityResult() 与 setResult()的调用时机

今天遇到这样一个问题，我在ActivityA中用startActivityForResult()方法启动了Activity B，并且在B中通过 setResult()方法给A返回值，由于某些原因不能在setResult()之后立刻调用finish()函数，只能通过用户按Back键自己退出到 A。按理说从B退出回到AactivityA过程中，A中的 onActivityResult() 应该

2014-03-11 09:27:27 954

原创 MR-eclipse本地开发环境搭建&Hadoop学习总结

一、Hadoop伪分布式部署及eclipse开发环境搭建1.搭建虚拟机环境：搭建在win7上的linux虚拟机，套件版本为：CentOS release 6.2 （Final）.2.下载hadoop，我下载的版本是hadoop 1.1.23.下载hadoop-eclipse-plugin-1.1.2.jar 或者在${HADOOPHOME}/contrib/目录下找到 hado

2014-03-09 19:07:24 5570

转载 Zookeeper容错程序模拟

本文模拟实现一个基于zookeeper怎么解决单点故障的案例。单点故障问题，在分布式系统中是一个很有可能发生的场景，比如说在Hadoop2.x之前的HDFS的NameNode和MapReduce的JobTracker的单点故障，当然这个问题已经在Hadoop2.x中得到解决，解决的方式，大部分是基于Zookeeper来实现的。另外一个例子，在Hbase中的Hmaster的单点问题，也是使用Z

2014-03-09 18:13:12 1714

转载 HBase学习总结

HBase是一种构建在HDFS之上的分布式、面向列的存储系统。在需要实时读写、随机访问超大数据集时，可以使用HBase这一Hadoop应用。传统行式数据库和列式数据库的区别：传统行式数据库：数据是按行存储的。没有索引的查询使用大量IO。建立索引和物化视图需要花费大量时间和资源。面对查询的需求，数据库必须被大量膨胀才能满足性能要求。列式数据库：数据按列存储（每一列单独

2014-03-07 13:06:10 1233

转载日志系统

Log4jApache 的一个开放源代码项目，通过使用Log4j，我们可以控制日志信息输送的目的地是控制台、文件、GUI组件、甚至是套接口服务器、NT的事件记录器、UNIX Syslog守护进程等；用户也可以控制每一条日志的输出格式；通过定义每一条日志信息的级别，用户能够更加细致地控制日志的生成过程。这些可以通过一个配置文件来灵活地进行配置，而不需要修改程序代码。LOGBack

2014-03-07 10:11:05 737

转载 Pig的使用

Pig实战1. pig简介2. 安装pig3. 实战pig4. 深入pig5. 参考资料及代码下载 . Pig简介 pig是hadoop项目的一个拓展项目，用以简化hadoop编程（简化的程度超乎想象啊），并且提供一个更高层次抽象的数据处理能力，同时能够保持hadoop的简单和可靠性。. 安装pig 2.1 下载pig：[点击

2014-03-07 09:39:34 900

转载 ClassNotFoundException和NoClassDefFoundError的区别

正如它们的名字所说明的：NoClassDefFoundError是一个错误(Error)，而ClassNOtFoundException是一个异常，在Java中错误和异常是有区别的，我们可以从异常中恢复程序但却不应该尝试从错误中恢复程序。ClassNotFoundException的产生原因：Java支持使用Class.forName方法来动态地加载类，任意一个类的类名如果被作为参

2014-03-06 18:30:39 782

开始聊mapreduce，mapreduce是hadoop的计算框架，我学hadoop是从hive开始入手，再到hdfs，当我学习hdfs时候，就感觉到hdfs和mapreduce关系的紧密。这个可能是我做技术研究的思路有关，我开始学习某一套技术总是想着这套技术到底能干什么，只有当我真正理解了这套技术解决了什么问题时候，我后续的学习就能逐步的加快，而学习hdfs时候我就发现，要理解hadoop框架

2014-03-06 13:10:36 782

转载从hadoop框架与MapReduce模式中谈海量数据处理

从hadoop框架与MapReduce模式中谈海量数据处理前言几周前，当我最初听到，以致后来初次接触Hadoop与MapReduce这两个东西，我便稍显兴奋，觉得它们很是神秘，而神秘的东西常能勾起我的兴趣，在看过介绍它们的文章或论文之后，觉得Hadoop是一项富有趣味和挑战性的技术，且它还牵扯到了一个我更加感兴趣的话题：海量数据处理。由此，最近凡是空

2014-03-04 20:18:20 668

转载 CentOS下Hadoop伪分布模式安装笔记

CentOS下Hadoop伪分布模式安装笔记一. 前言 Hadoop 伪分布式模式是在单机上模拟 Hadoop 分布式，单机上的分布式并不是真正的伪分布式，而是使用线程模拟分布式。Hadoop 本身是无法区分伪分布式和分布式的，两种配置也很相似，唯一不同的地方是伪分布式是在单机器上配置，数据节点和名字节点均是一个机器。现在很多初学者根本不具备搭建完全分布式集群的

2014-03-04 13:42:22 667

原创 java并发编程实战总结2

一、显示锁 1. Lock 和 ReentrantLock(1) 简述：与内置锁机制不同的是，Lock提供了一种无条件的、可轮询的、定时的以及可中断的锁获取操作，所有加锁和解锁方法都是显示的。public interface Lock { //获取锁 void lock(); //如果当前线程未被中断，则获取锁。 void lockInterrupt

2014-03-02 13:14:44 1192

lantian0802的专栏