大数据
哈哈哈哈哈哈哈111
这个作者很懒,什么都没留下…
展开
-
1.hadoop伪分布式安装命令(hadoop学习笔记)
配置linux权限用户:sudo passwd root设置密码:hadoopsu rootcentos配置选择网络适配器点击仅主机模式进入计算机网络更改适配器选择wmware network adapter vmnet1设置ip192.168.56.1子网掩码255.255.255.0首选dns服务器192.168.56原创 2015-09-12 12:58:17 · 1780 阅读 · 0 评论 -
mapreduce原理
转自:http://www.cnblogs.com/sharpxiajun/p/3151395.html开始聊mapreduce,mapreduce是hadoop的计算框架,我学hadoop是从hive开始入手,再到hdfs,当我学习hdfs时候,就感觉到hdfs和mapreduce关系的紧密。这个可能是我做技术研究的思路有关,我开始学习某一套技术总是想着这套技术到底能干什么,只有当我真正转载 2015-09-13 20:13:39 · 1737 阅读 · 0 评论 -
hive笔记
1.hive: 在hadoop生态圈中属于数据仓库的角色,它能够管理hadoop中的数据,同时可以查询hadoop中的数据。本质上讲,hive是一个sql解析引擎,hive可以把sql查询转换为mapreduce中的job来运行。hive有一套映射工具,可以把sql转化为mapreduce中的job,可以把sql中的表、字段转化为hdfs中的文件(夹)以及文件中的列。这套映射工原创 2015-12-10 13:49:44 · 371 阅读 · 0 评论 -
MapReduce:详解Shuffle过程
在代码中又确认了一下,Combiner在spill的时候会执行,同时在merge的时候只有spill的文件数大于min.num.spill.for.combine才会执行,具体见代码: private void sortAndSpill() throws IOException, ClassNotFoundException,转载 2015-12-07 18:17:50 · 433 阅读 · 0 评论 -
linux常用命令
1.通过远程工具登陆到linux后,所在的位置是当前登录用户的家目录(home directory)。2.家目录的符号用~表示。3.linux的文件系统是一个树结构。 linux文件系统的树根成为根目录,使用符号"/"表示。 linux文件系统中使用符号".."表示上级目录。 linux文件系统中使用符号"."表示当前目录。 linux文件系统中,如果文件使用“.”原创 2015-09-12 13:01:07 · 1856 阅读 · 0 评论 -
linux grep正则表达式与grep用法详解
正则表达式只是字符串的一种描述,只有和支持正则表达式的工具相结合才能进行字符串处理。本文以grep为例来讲解正则表达式。grep命令功能:输入文件的每一行中查找字符串。基本用法:grep [-acinv] [--color=auto] [-A n] [-B n] '搜寻字符串' 文件名参数说明:-a:将二进制文档以文本方式处理-c:显示匹配次数转载 2018-02-05 15:04:29 · 33928 阅读 · 0 评论