2013年02月_漫天雪_昆仑巅

09月 08月 06月 05月 04月 03月 02月 01月

转载 Linux文件系统简介

文件系统是linux的一个十分基础的知识，同时也是学习linux的必备知识。本文将站在一个较高的视图来了解linux的文件系统，主要包括了linux磁盘分区和目录、挂载基本原理、文件存储结构、软链接硬链接、和常见目录的介绍。相信有了这些知识对于深入的学习linux会有一定的帮助。文章例子主要是基于ubuntu发行版。如有不对之处请大家多多指出。1.Linux磁盘分区和目

2013-02-25 16:28:50 898

原创 HDFS文件常用操作

弄了段时间hadoop的HDFS，用了些常用的HDFS文件操作，记录如下，以作Memo： /*** @Title: uploadLocalFileToHDFS* @Description: 单个本地文件拷贝到HDFS* @param @param localPath 本地文件路径* @param @param hdfsPath HDFS文件路径* @param @

2013-02-25 12:06:31 5797 1

转载 Linux目录结构详细分析

linux 目录结构 /：根目录，一般根目录下只存放目录，不要存放文件，/etc、/bin、/dev、/lib、/sbin应该和根目录放置在一个分区中/bin:/usr/bin: 可执行二进制文件的目录，如常用的命令ls、tar、mv、cat等。/boot：放置linux系统启动时用到的一些文件。/boot/vmlinuz为linux的内核文

2013-02-23 12:41:42 971

转载 Hadoop : MapReduce中的Shuffle和Sort分析

MapReduce 是现今一个非常流行的分布式计算框架，它被设计用于并行计算海量数据。第一个提出该技术框架的是Google 公司，而Google 的灵感则来自于函数式编程语言，如LISP，Scheme，ML 等。 MapReduce 框架的核心步骤主要分两部分：Map 和Reduce。当你向MapReduce 框架提交一个计算作业时，它会首先把计算作业拆分成若干个Map 任

2013-02-22 11:48:41 6438

转载 linux系统有哪些版本 linux系统哪个版本好用

l inux最早由Linus Benedict Torvalds在1991年开始编写。在这之前，RichardStallman创建了Free SoftwareFoundation(FSF)组织以及GNU项目，并不断的编写创建GNU程序(此类程序的许可方式均为GPL: General PublicLicense)。在不断的有杰出的程序员和开发者加入到GNU组织中后，便造就了今天我们所看到的Lin

2013-02-22 09:58:17 19887

原创 Hadoop之Join时 DataJoin软件包问题

在做HDFS多文件Join时通过监控job成功启动并且mapper执行完毕，但reduce总是不能执行完成，进度卡在66.66%。mapper输出是想要的格式，而且小规模输入数据测试时整个job能成功完成。在查看未完成reduce的状态，发现key不变，“numOfValues”的值却一直在增大如下格式错误：key...:1294823 > reduce;key...:2346134>

2013-02-20 18:06:13 1532

原创 HDFS多文件Join操作

最近在做HDFS文件处理之时，遇到了多文件Join操作，其中包括：All Join以及常用的Left Join操作，下面是个简单的例子；采用两个表来做left join其中数据结构如下：A 文件：a|1b|2|cB文件：a|b|1|2|c即：A文件中的第一、二列与B文件中的第一、三列对应；类似数据库中Table的主键/外键代码如下：impor

2013-02-18 23:20:54 2197

原创 Hadoop多Job并行处理

有关Hadoop多Job任务并行处理，经过测试，配置如下：首先做如下配置：1、修改mapred-site.xml添加调度器配置： mapred.jobtracker.taskScheduler org.apache.hadoop.mapred.FairScheduler2、添加jar文件地址配置： hadoopTest.jar 所生成jar的地址

2013-02-18 22:54:35 8793 1

原创用Sqoop把数据从HDFS导入到关系型数据库

由于工作的需求，需要把HDFS中处理之后的数据转移至关系型数据库中成为对应的Table，在网上寻找有关的资料良久，发现各个说法不一，下面是本人自身测试过程：使用Sqoop来实现这一需求，首先要明白Sqoop是什么？ Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具，可以将一个关系型数据库（例如： MySQL ,Oracle ,Postgres等）中的数据导进到H

2013-02-16 18:02:52 6534 6

转载系统吞吐量（TPS）、用户并发量、性能测试概念和公式

系统吞吐量（TPS）、用户并发量、性能测试概念和公式发表于: DataBase, Linux, UNIX, Windows, 个人日记 | 作者: 谋万世全局者一．系统吞度量要素：一个系统的吞度量（承压能力）与request对CPU的消耗、外部接口、IO等等紧密关联。单个reqeust 对CPU消耗越高，外部系统接

2013-02-16 12:03:23 1288

原创 JConsole之Java性能分析器使用

一、JConsole是什么从Java 5开始引入了 JConsole。JConsole 是一个内置 Java 性能分析器，可以从命令行或在 GUI shell 中运行。您可以轻松地使用 JConsole（或者，它更高端的 “近亲” VisualVM ）来监控 Java 应用程序性能和跟踪 Java 中的代码。二、如何启动JConsole如果是从命令行启动，使 JD

2013-02-16 11:34:16 1822

原创 B KB GB MB ..转换

下面是常用转换：1 Byte (B) = 8 bits (b) 字节=8个二进制位1 KB = 1024 B (kB - kilobajt) 千1 MB = 1024 kB (MB - megabajt) 兆1 GB = 1024 MB (GB - gigabajt) 吉1 TB = 1024 GB (TB - terabajt) 太1 PB = 1024 TB (

2013-02-08 10:47:15 2275

我们通常说的分布式系统其实是分布式软件系统，即支持分布式处理的软件系统，它是在通信网络互联的多处理机体系结构上执行任务的，包括分布式操作系统、分布式程序设计语言及其编译(解释)系统、分布式文件系统和分布式数据库系统等。Hadoop是分布式软件系统中文件系统这一层的软件，它实现了分布式文件系统和部分分布式数据库的功能。Hadoop中的分布式文件系统HDFS能够实现数据在计算机集群组成的云上高效的存储

2013-02-04 11:25:05 5329

elasticsearch-7.2.0-linux-x86_64.tar.gz

elasticsearch-7.2.0-linux-x86_64.tar 这个是官网上面下载下来的，官网下载比较慢，有需要的朋友可以在这下载，elasticsearch-7.2.0版本，

2020-05-06

kafkatool_64bit.rar

这个是KaFka客户端工具，使用这个客户端工具可以很方便的连接kafka，可以查看和消费当前队列里面的数据、以及历史推送数据等，在开发或者调试中使用非常的方便。(这个是windows 64位版本)

2020-05-06

磁盘文件大小统计.zip

这是一款windows下磁盘大小统计软件，它可以精确到各个磁盘、目录、文件等各自的大小，解压后只要运行里面exe程序即可加载磁盘内占用情况，方便用户查看各个磁盘以及文件目录大小，非常的实用，当磁盘莫名其妙使用过大时候，不妨运行一下这个统计程序来看看是被哪个消耗了。

2020-05-06

GraphicsMagick-1.3.12-Q16-windows-dll.exe

GraphicsMagick是一个短小精悍的的图片处理工具和库集合。对于Java开发者来说，常用的图片处理工具有3个，JDK自带的图片处理库，ImageMagick，GraphicsMagick。JDK自带的图片处理库，虽稳定简单，性能却比较差；ImageMagick是目前最流行的图片处理工具，它的功能非常丰富；GraphicsMagick的功能略逊于ImageMagick，但是它的效率更强悍，但大多数情况下，GM的功能已经足够使用了。（这个是windows版本）

2020-05-06