![](https://img-blog.csdnimg.cn/20201014180756922.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Hadoop
phac123
坚持&选择
展开
-
Hadoop——MapReduce作业链接
含义:怎样是多个MapReduce作业连起来执行;许多复杂的任务需要分解成简单任务,每个子任务通过MapReduce作业来完成。Hadoop支持将多个MapReduce链接成更大的作业多个MapReduce vs 复杂的Map和Reduce例:从数据集中找到10个被引用最多的专利Hadoop1:倒排,统计引用数Hadoop2: 寻找最大的10个MapReduce作业按照顺序链接在一起类似于Unix中的管道:mapreduce-1 | mapreduce-2 | mapreduce原创 2020-05-16 10:21:10 · 417 阅读 · 0 评论 -
Hadoop——Hadoop Streaming——学习笔记
Hadoop流-StreamingHadoop流提供了一个API,允许用户使用任何脚本语言写Map函数或Reduce函数使用UNIX标准流作为程序与Hadoop之间的接口#例子#原创 2020-05-15 10:35:10 · 318 阅读 · 0 评论 -
Hadoop——MapReduceIO(2)——学习笔记
课程结构图:原创 2020-05-06 14:31:44 · 164 阅读 · 0 评论 -
Hadoop——MapReduceIO(1)——学习笔记
MapReduceIO(1)课程结构图:MapReduce 输入分片MapReduce读取输入数据以及写入输出数据支持多种数据格式(文件是主要格式)输入数据通常驻留在较大的文件中(通常是几十或者几百 GB 甚至更大)Hadoop输入分片(inputsplit)MapReduce 处理数据的原理是将其分割成为块,这些块可以在多个计算机上并行处理每个分片足够小以实现更细粒度的并行块...原创 2020-05-04 16:51:38 · 195 阅读 · 0 评论 -
Hadoop——MapReduce计算模型(2)——学习笔记
Partitioner重定向Mapper输出到多个ReducerHadoop默认的机制是对键进行散列来确定reducerHadoop默认通过HashPartitioner类强制执行此策略通过key2.hashCode()*定义用户自己的Partitioner实现getPartition() 返回一个介于0和reducer任务数之间的整数,指向键值对要发送到r...原创 2020-05-04 10:26:13 · 164 阅读 · 0 评论 -
MapReduce计算模型——学习笔记
MapReduce Job每个MapReduce任务被初始化为一个Job每个Job对应两个阶段Map和Reduce,分别对应Map函数和Reduce函数这个过程中间是键值对的传递MapReduce流程:Mapper作为mapper,继承org.apache.hadoop.mapreduce.Mapperpublic class Mapper<KEYIN,VALUEIN...原创 2020-05-02 15:52:14 · 273 阅读 · 0 评论 -
人工智能及其应用——第三章学习笔记——推理2
消解推理规则消解式的定义:令L1, L2为两任意原子公式:L1和L2具有相同的为此符号,但一般具有不同的变量。已知两子句L1 V a 和 ~L2 V b, 如果L1和L2具有最一般合一者c, 那么通过消解可以从这两个父辈子句推到出一个新子句(a V b)c.这个新子句叫消解式....原创 2020-04-30 19:12:11 · 1155 阅读 · 0 评论 -
将多个小文件封装成SequenceFile文件
采坑过程1.使用随机数生成(整数,字符串)为(kdy,value)的文本文件,文件的大小内容随意,文件数量不少于100个;2.使用SequenceFile对以上文件进行封装成一个独立文件,压缩格式任意;3.可以实现以下的三种方式的查询: 3.1给出文件名,可以从序列文件整体读取文件并存储到指定的位置; 3.2给出摸个整数的key,可以读取所有该key的数据,并给出所在文件的名称(可以输出...原创 2020-04-30 15:17:44 · 1598 阅读 · 3 评论 -
Hadoop————Hadoop中的文件类型——学习笔记
课程结构图:OutLine序列文件SequenceFile排序的序列文件MapFileSequenceFile— 可以作为小文件的容器,封装小文件— 用于存储键值对的二进制文件格式— 支持压缩— 保持可分割(可拆分)(拆分标志)— 支持二进制的键和值— 在HDFS中获得更高的存储效率— 用于链接多个Hadoop作业序列文件SequenceFile有3种类型— 未压缩—...原创 2020-04-28 15:01:38 · 606 阅读 · 0 评论 -
Hadoop数据类型_学习笔记
Hadoop数据类型:课程结构图:键/值序列化序列化:云端键值的序列化,序列化是一个核心.它是将对象转化为字节流的方法;其目的有:1. 进程间通信2. 数据持久性存储假如说,要从A传输一个对象到B,我们必须要将这个对象转化为二进制流才可以。如果想要将云端的一个对象存到硬盘,那我们也必须要将这个对象转化为二进制流才可以进行存储。MapReduce框架提供了一种序列化键/值的方法,没...原创 2020-04-25 22:07:23 · 964 阅读 · 0 评论 -
如何在Hadoop的云端删除文件
命令:hadoop fs -rm -r -skipTrash /path_to_file/file_name运行效果:原创 2020-04-25 15:04:46 · 433 阅读 · 0 评论 -
Hadoop——HDFS工具——学习笔记
HDFS工具HDFS distcp并行复制前面的HDFS访问模型多事单线程的访问。Hadoop有一个叫idstcp(分布式复制)的有用程序,能从Hadoop的文件系统并行复制大量数据.distcp一般用于在两个运行同一版本DFS集群中传输数据.bin/hadoop distcp hdfs;//namenode1/foohdfs://namenode2/bar这将从第一个集群中复...原创 2020-04-23 17:55:59 · 534 阅读 · 0 评论 -
Hadoop——HDFS编程学习笔记
上次学习的是HDFS基于Shell命令行的模式.HDFS JAVA APIHDFS支持JVA的接口,利用JAVA API 中的库来读写HDFS中的文件例子:使用HadoopURL读取数据1. java.net.URL打开一个数据输入流inputStream in = null;try { in = new URL( "hdfs:namenode/path" ).openStream...原创 2020-04-23 10:36:10 · 323 阅读 · 0 评论 -
Hadoop——设置SSH免密登录
前面其实我也写过,但是当时我都不知道这个东西是用来做什么的,稀里糊涂的就做好了;现在我稍微懂了一点,重新再来配置一次.lsls -als -la 并没有发现.ssh文件夹没有设置SSH免密登录的状态:首先生成一对非对称密钥通过命令:ssh-keygen -t rsa接着一路回车.接着打开.ssh,可以看到:id_rsa:私钥id_rsa.pub:公钥使用命令:ca...原创 2020-04-22 06:01:59 · 131 阅读 · 0 评论 -
Hadoop HDFS _学习笔记
HDFS:是一个综合的文件系统抽象,提供了文件系统的各种借口。HDFS整合了各种众多的文件系统,提供了一个抽象的文件系统————org.apache.hadoop.fs.FileSystemorg.apache.hadoop.fs.FileSystem的实现-org.apache.hadoop.fs.LocalFileSystemImplimen for local filesystem...原创 2020-04-21 15:04:00 · 171 阅读 · 0 评论 -
Hadoop回炉重造篇——Hadoop的安装
SSH的安装ssh,http://baike.baidu.com/view/16184.tml-----为什么我们需要安装SSH为了驻守NameNode 和 JobTracker守护进程的主节点,需要通过SSH协议联络从节点上的DataNode和TaskTracker守护进程。一句话就是主机需要通过某种手段来对从机进行管理和文件的传输,这为了达到这个目的我们需要一个安全的协议进行传输,而SS...原创 2020-04-20 21:59:49 · 173 阅读 · 0 评论 -
在访问HDFS时候无法打开网页时的坑
原因:关闭防火墙;代码:systemctl stop firewalld原创 2020-04-20 14:42:10 · 1555 阅读 · 0 评论 -
windows下使用idea远程链接Hadoop(Linux)
转发链接: 传送门.转载 2020-04-19 11:20:00 · 806 阅读 · 0 评论 -
Hadoop之伪分布模式_学习笔记
伪分布模式所谓伪分布模式的含义是:把所有的角色全部运行在一个节点上,就叫做伪分布式。步骤(1)配置集群(a) 配置:hadoop-env.sh Linux系统中获取JDK的安装路径 echo $JAVA_HOME修改JAVA_HOME路径:export JAVA_HOME=/opt/module/jdk1.7.0_80(b)配置core-site.xml<...原创 2020-04-12 12:05:01 · 2004 阅读 · 0 评论 -
Hadoop之本地运行模式_学习笔记
贴上官方文档:https://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-common/SingleCluster.html这里的一个障碍,就是英文.不要虚就是上,hhh.读的越多,越熟练。首先配置 /etc/hadoop/hadoop-env.sh这里需要更改JAVA_HOME,直接这里替换成你的JDK的安装路径,...原创 2020-04-12 10:34:37 · 269 阅读 · 0 评论 -
Hadoop配置环境篇
用于查询所有安装的jar包rpm -qa | grep javarpm -qa | grep java | xargs sudo rpm -e --nodeps (有依赖)解压文件tar -zxvf ...(压缩的文件) -C /opt/module(目标的文件夹)解释:以后的安装包的压缩包全部放到/opt/software,然后所以解压后的安装包放到/opt/module文...原创 2020-04-12 09:55:09 · 100 阅读 · 0 评论 -
安装好一台Linux虚拟机后需要进行的常规操作
关闭防火墙,并关闭开机自启service iptables stopchkconfig iptables off创建一个一般用户useradd lqpasswd lq在/opt目录下创建 software module文件夹,并更改所有权mkdir /opt/software /opt/modulechown lq:lq /opt/software /opt/m...原创 2020-04-12 06:31:09 · 764 阅读 · 0 评论 -
配置Hadoop全过程
首先我使用的Linux系统是CentOS7;卸载掉CentOS系统中自带的JAVA;rpm -qa | grep java | xargs sudo rpm -e --nodeps将下载好的软件的安装包放到 :/opt/software 中,将解压后的软件放到:/opt/module 中。解压的命令:tar -zxvf jdk-7u80-linux-x64.tar.gz...原创 2020-04-11 09:46:14 · 118 阅读 · 0 评论