2015年10月_miketom155

12月 10月 07月 06月 05月 04月 03月

原创线程池的作用

线程池的作用: 线程池作用就是限制系统中执行线程的数量。根据系统的环境情况，可以自动或手动设置线程数量，达到运行的最佳效果；少了浪费了系统资源，多了造成系统拥挤效率不高。用线程池控制线程数量，其他线程排队等候。一个任务执行完毕，再从队列的中取最前面的任务开始执行。若队列中没有等待进程，线程池的这一资源处于等待。当一个新任务需要运行时，如果线程池中有等待的工作线程，

2015-10-28 09:08:44 403

原创 java 多线程实践

1. 什么是多线程？，是指从软件或者硬件上实现多个线程并发执行的技术。具有多线程能力的计算机因有硬件支持而能够在同一时间执行多于一个线程，进而提升整体处理性能。具有这种能力的系统包括对称多处理机、多核心处理器以及芯片级多处理（Chip-level multithreading）或同时多线程（Simultaneous multithreading）处理器。[1] 在一个程序中，这些独立运行

2015-10-22 10:35:55 552

当今NoSQL领域中有很多有力的竞争者通过多种方式来处理海量数据问题。其中重要的解决方案之一就是MongoDB。MongoDB是面向文档的弱结构化存储方案，使用JSON格式来展现、查询和修改数据。MongoDB文档相当完备，扩展规模与安装一样简单。它提供冗余、切片、索引以及map/reduce等概念支持。MongoDB的开源社区非常大且非常活跃。MongoDB在很多大型产品中被实际运用，如：Disney, Craigslist, Foursquare, Github 和SourceForge。MongoD

2015-10-22 09:56:24 474

原创 pig 是什么？

1. 什么是pig? Pig在Hadoop Pig Latin,并行的数据流语言 pig是hadoop上层的衍生架构，与hive类似。对比hive（hive类似sql，是一种声明式的语言），pig是一种过程语言，类似于存储过程一步一步得进行数据转化。5.Pig Latin的介绍大小写敏感注释输入和输出加载(Load) 存储(Store)

2015-10-22 09:37:04 2402

原创 hdfs 的存储系统的简介

,当用client向hdfs中写入数据的时候. 当我们向hdfs 写数据的时候,客户端要做两件事.首先,将数据文件划分不同的数据块,划分的标准默认是64MB或128MB,这个是可以配置的.其次是向namenode请求一批(实际上就是默认的3个)datanode以存放数据块.当然namenode不是随便的选出三个datanode给client,它会选择三个最靠近clien

2015-10-21 17:57:24 359

原创 Hive Hbase Pig 区别

对于刚接触大数据的用户来说，要想区分Hive与HBase是有一定难度的。本文将尝试从其各自的定义、特点、限制、应用场景等角度来进行分析，以作抛砖引玉之用。 Hive是什么？Apache Hive是一个构建于Hadoop(分布式系统基础架构)顶层的数据仓库，注意这里不是数据库。Hive可以看作是用户编程接口，它本身不存储和计算数据；它依赖于HDFS(Hadoop分布式文件系统)和MapRed

2015-10-21 17:21:32 675

转载 region 学习(2)

HBase region的分裂过程如图所示，其中红色代表RegionServer和或Master的行为，绿色的代表Clients的行为。1、RegionServer决定本地的region分裂，并准备分裂工作。第一步是，在zookeeper的/hbase/region-in-reansition/region-name下创建一个znode，并设为SPLITTING状态。2、M

2015-10-21 17:09:36 5400

原创 hbase Region 的学习

RegionManager --- 负责将 region 分配到 region server 的具体工作，还有监视 root 和 meta 这 2 个特殊 region的状态。RootScanner --- 定期扫描 root region ，以发现没有分配的 meta region 。MetaScanner--- 定期扫描 meta region, 以发现没有分配的 user region 。

2015-10-21 17:07:31 426

原创 hbase分页的功能实现

hbase分页功能的几种实现方案。分页功能是线上系统的常用功能，对hbase，有以下几个方案可以选择(抛砖引玉)。假设要查第N页，1页大小为M1 client分页，scan查到N*M条，过滤掉N*（M--1）条，返回M条。对于M,N较小时比较适合。2 自定义Filter，该filter可以传递offset(server端需要过滤的记录条数)，在server端分页，注

2015-10-21 16:56:58 3274

原创 java 操作hbase的数据

Java操作Hbase进行建表、删表以及对数据进行增删改查，条件查询1、搭建环境新建JAVA项目，添加的包有: 有关Hadoop的hadoop-core-0.20.204.0.jar 有关Hbase的hbase-0.90.4.jar、hbase-0.90.4-tests.jar以及Hbase资源包中lib目录下的所有jar包 2、主要程序

2015-10-21 16:43:53 551

转载 HBase 命令详解

. 介绍 HBase是一个分布式的、面向列的开源数据库,源于google的一篇论文《bigtable：一个结构化数据的分布式存储系统》。HBase是Google Bigtable的开源实现，它利用Hadoop HDFS作为其文件存储系统，利用Hadoop MapReduce来处理HBase中的海量数据，利用Zookeeper作为协同服务。 HBase以表的

2015-10-21 16:33:44 782

转载 HBase学习(1)

HBase – Hadoop Database，是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。HBase是Google Bigtable的开源实现，类似Google Bigtable利用GFS作为其文件存储系统，HBase利用Hadoop HDFS作为其文件存储系统；Google运行MapReduce来

2015-10-21 16:21:20 365

原创 MINA框架的第一课

1.什么是MINA？ApacheMINA是一个网络应用程序框架，用来帮助用户简单地开发高性能和高可扩展性的网络应用程序。它提供了一个通过Java NIO在不同的传输例如TCP/IP和UDP/IP上抽象的事件驱动的异步API。Apache MINA 也称为:● NIO 框架库● 客户端服务器框架库● 一个网络套接字库MINA框架的特点有：基于jav

2015-10-20 16:39:51 735

原创 Hadoop组成简介

Hadoop组成简介浏览(1647)|评论(0) 交流分类：Java|笔记分类: hadoop Hadoop是Apache的一个项目（它是包含了很多子项目的集合，见下图）,它是一个实现了MapReduce计算模型的可以运用于大型集群并行计算的分布式并行计算编程框架,当然分布式计算离不开分布式存储,Hadoop框架包含了分布式存储系统HDFS(Hadoop Di

2015-10-19 15:11:57 673

转载 Hadoop的调度器总结

Hadoop的调度器总结浏览(1075)|评论(0) 交流分类：Java|笔记分类: hadoop 随着MapReduce的流行，其开源实现Hadoop也变得越来越受推崇。在Hadoop系统中，有一个组件非常重要，那就是调度器，它的作用是将系统中空闲的资源按一定策略分配给作业。在Hadoop中，调度器是一个可插拔的模块，用户可以根据自己的实际应用要求设计调度器。Had

2015-10-19 15:04:15 322

原创 hadoop 增加回收功能处置！

在core-site.xml中增加如下配置，表明rm后会在trash中保留多少分钟：fs.trash.interval10080Number of minutes between trash checkpoints. If zero, the trash feature is disabledhadoop的这个默认值是0.所以需要设置。

2015-10-19 15:01:40 311

原创 hive 的数据仓库的使用

1.什么是hive数据仓库•Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供类SQL查询功能。•本质是将SQL转换为MapReduce程序2.为什么要使用Hive•操作接口采用类SQL语法，提供快速开发的能力•避免了去写MapReduce，减少开发人员的学习成本•扩展功能很方便Hi

2015-10-19 14:59:08 484

linux抓包工具tcpdump的依赖m4,flex,flex++,bison,yacc,libpcap,tcpdump

安装tcpdump的抓包工具 ./configure make make install 设置软链接 ln -sf /usr/local/bin/m4 /usr/bin/m4 ln -sf /usr/local/bin/flex /usr/bin/flex ln -sf /usr/local/bin/flex++ /usr/bin/flex++ ln -sf /usr/local/bin/bison /usr/bin/bison ln -sf /usr/local/bin/yacc /usr/bin/yacc 抓包工具的使用 usr/local/bin/tcpdump -i eth0 host 127.0.0.1 -w a.dump

2022-11-17