- 博客(13)
- 资源 (21)
- 收藏
- 关注
转载 Linux文件系统简介
文件系统是linux的一个十分基础的知识,同时也是学习linux的必备知识。 本文将站在一个较高的视图来了解linux的文件系统,主要包括了linux磁盘分区和目录、挂载基本原理、文件存储结构、软链接硬链接、和常见目录的介绍。相信有了这些知识对于深入的学习linux会有一定的帮助。文章例子主要是基于ubuntu发行版。 如有不对之处请大家多多指出。1.Linux磁盘分区和目
2013-02-25 16:28:50 898
原创 HDFS文件常用操作
弄了段时间hadoop的HDFS,用了些常用的HDFS文件操作,记录如下,以作Memo: /*** @Title: uploadLocalFileToHDFS* @Description: 单个本地文件拷贝到HDFS* @param @param localPath 本地文件路径* @param @param hdfsPath HDFS文件路径* @param @
2013-02-25 12:06:31 5797 1
转载 Linux目录结构详细分析
linux 目录结构 /: 根目录,一般根目录下只存放目录,不要存放文件,/etc、/bin、/dev、/lib、/sbin应该和根目录放置在一个分区中/bin:/usr/bin: 可执行二进制文件的目录,如常用的命令ls、tar、mv、cat等。/boot: 放置linux系统启动时用到的一些文件。/boot/vmlinuz为linux的内核文
2013-02-23 12:41:42 971
转载 Hadoop : MapReduce中的Shuffle和Sort分析
MapReduce 是现今一个非常流行的分布式计算框架,它被设计用于并行计算海量数据。第一个提出该技术框架的是Google 公司,而Google 的灵感则来自于函数式编程语言,如LISP,Scheme,ML 等。 MapReduce 框架的核心步骤主要分两部分:Map 和Reduce。当你向MapReduce 框架提交一个计算作业时,它会首先把计算作业拆分成若干个Map 任
2013-02-22 11:48:41 6438
转载 linux系统有哪些版本 linux系统哪个版本好用
l inux最早由Linus Benedict Torvalds在1991年开始编写。在这之前,RichardStallman创建了Free SoftwareFoundation(FSF)组织以及GNU项目,并不断的编写创建GNU程序(此类程序的许可方式均为GPL: General PublicLicense)。在不断的有杰出的程序员和开发者加入到GNU组织中后,便造就了今天我们所看到的Lin
2013-02-22 09:58:17 19887
原创 Hadoop之Join时 DataJoin软件包问题
在做HDFS多文件Join时通过监控job成功启动并且mapper执行完毕,但reduce总是不能执行完成,进度卡在66.66%。mapper输出是想要的格式,而且小规模输入数据测试时整个job能成功完成。在查看未完成reduce的状态,发现key不变,“numOfValues”的值却一直在增大如下格式错误:key...:1294823 > reduce;key...:2346134>
2013-02-20 18:06:13 1532
原创 HDFS多文件Join操作
最近在做HDFS文件处理之时,遇到了多文件Join操作,其中包括:All Join以及常用的Left Join操作,下面是个简单的例子;采用两个表来做left join其中数据结构如下:A 文件:a|1b|2|cB文件:a|b|1|2|c即:A文件中的第一、二列与B文件中的第一、三列对应;类似数据库中Table的主键/外键代码如下:impor
2013-02-18 23:20:54 2197
原创 Hadoop多Job并行处理
有关Hadoop多Job任务并行处理,经过测试,配置如下:首先做如下配置:1、修改mapred-site.xml添加调度器配置: mapred.jobtracker.taskScheduler org.apache.hadoop.mapred.FairScheduler2、添加jar文件地址配置: hadoopTest.jar 所生成jar的地址
2013-02-18 22:54:35 8793 1
原创 用Sqoop把数据从HDFS导入到关系型数据库
由于工作的需求,需要把HDFS中处理之后的数据转移至关系型数据库中成为对应的Table,在网上寻找有关的资料良久,发现各个说法不一,下面是本人自身测试过程:使用Sqoop来实现这一需求,首先要明白Sqoop是什么? Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到H
2013-02-16 18:02:52 6534 6
转载 系统吞吐量(TPS)、用户并发量、性能测试概念和公式
系统吞吐量(TPS)、用户并发量、性能测试概念和公式发表于: DataBase, Linux, UNIX, Windows, 个人日记 | 作者: 谋万世全局者一.系统吞度量要素: 一个系统的吞度量(承压能力)与request对CPU的消耗、外部接口、IO等等紧密关联。单个reqeust 对CPU消耗越高,外部系统接
2013-02-16 12:03:23 1288
原创 JConsole之Java性能分析器使用
一、JConsole是什么 从Java 5开始 引入了 JConsole。JConsole 是一个内置 Java 性能分析器,可以从命令行或在 GUI shell 中运行。您可以轻松地使用 JConsole(或者,它更高端的 “近亲” VisualVM )来监控 Java 应用程序性能和跟踪 Java 中的代码。二、如何启动JConsole如果是从命令行启动,使 JD
2013-02-16 11:34:16 1822
原创 B KB GB MB ..转换
下面是常用转换:1 Byte (B) = 8 bits (b) 字节=8个二进制位1 KB = 1024 B (kB - kilobajt) 千1 MB = 1024 kB (MB - megabajt) 兆1 GB = 1024 MB (GB - gigabajt) 吉1 TB = 1024 GB (TB - terabajt) 太1 PB = 1024 TB (
2013-02-08 10:47:15 2275
原创 Hadoop并行计算原理与分布式并发编程
我们通常说的分布式系统其实是分布式软件系统,即支持分布式处理的软件系统,它是在通信网络互联的多处理机体系结构上执行任务的,包括分布式操作系统、分布式程序设计语言及其编译(解释)系统、分布式文件系统和分布式数据库系统等。Hadoop是分布式软件系统中文件系统这一层的软件,它实现了分布式文件系统和部分分布式数据库的功能。Hadoop中的分布式文件系统HDFS能够实现数据在计算机集群组成的云上高效的存储
2013-02-04 11:25:05 5329
elasticsearch-7.2.0-linux-x86_64.tar.gz
2020-05-06
kafkatool_64bit.rar
2020-05-06
磁盘文件大小统计.zip
2020-05-06
GraphicsMagick-1.3.12-Q16-windows-dll.exe
2020-05-06
IntelliJ IDEA常用配置操作文档
2019-05-31
Linux Nginx1.1.1安装包及依赖包
2018-11-24
hadoop的winutils.exe及dll文件
2018-07-04
dubbo war 2.5.4下载
2017-08-01
solr-dataimport-scheduler.jar定时同步
2017-07-07
YUI compressor右键压缩脚本
2017-04-01
Eclipse/MyEclipse汉化版SVN插件
2012-12-19
PowerDesigner(CDM—PDM—SQL脚本的转换流程
2012-01-09
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人