大数据
大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。大数据通常针对文本这种非结构化数据而设计。
虚心若愚求知若渴
大道至简
展开
-
Hadoop WordCount程序原理
Hadoop运行wordcount 案例cd /opt/moudle/hadoop-2.7.3/share/hadoop/mapreducehadoop jar hadoop-mapreduce-examples-2.7.3.jar wordcount ~/temp/a.txt ~/temp/outhadoop-mapreduce-examples-2.7.3.jar WordCoun...原创 2020-04-05 23:04:38 · 444 阅读 · 0 评论 -
Hadoop HDFS NameNode和DataNode工作机制
NameNode:存储文件的元数据,如文件名,文件目录结构,文件属性(生成时间,副本数,文件权限),以及每个文件的块列表和块所在的DataNode等。DataNode:在本地文件系统存储文件块数据,以及块数据的校验和。Secondary NameNode:用来监控HDFS状态的辅助后台程序,每隔一段时间获取HDFS元数据快照。...原创 2020-03-22 16:10:59 · 232 阅读 · 0 评论 -
Hadoop HDFS上传和下载原理
原创 2020-03-21 23:10:51 · 135 阅读 · 0 评论 -
Hadoop HDFS RPC通信和Proxy(代理)
RPC(Remote Procedure Call):远程调用过程,调用代码不在本地执行,实现调用者与被调用者之间的连接和通信。基于Client Server,相当于DFSClient 相当于客户端。NameNode集群相当与Server。HDFS底层原理-代理对象Proxy1、代理,是一种设计模式,提供了对目标对象的另一种访问方式。通过代理对象访问目标对象。2、代理分为静态代理和动态代理。a、静态代理:接口的定义,实现接口。被代理对象与对象实现相同的接口。b、动态代理:接口的定义不需要实现接原创 2020-03-21 21:59:17 · 946 阅读 · 1 评论 -
Java API实现Hadoop HDFS操作
一,依赖<dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-common</artifactId> <version>2.7.3</version></dependency><dep...原创 2020-03-16 02:00:07 · 430 阅读 · 0 评论 -
Hadoop HDFS安全模式、快照、回收站、配额
安全模式检查副本率是否满足配置要求。副本率不够时,会复制。副本率超出会删除多余的。1、冗余度:每个数据块复制多少个副本。在hadoop-2.7.3/etc/hadoop/hdfs-site.xml配置<!-- 数据块的冗余度,默认是3 --><property> <name>dfs.replication</name> &l...原创 2020-03-16 00:17:06 · 231 阅读 · 0 评论 -
Exception in thread "main" org.apache.hadoop.security.AccessControlException: Permission denied: use
Hadoop文件上传报权限错误Exception in thread "main" org.apache.hadoop.security.AccessControlException: Permission denied: user=86150, access=WRITE, inode="/2020/a.txt":root:supergroup:drwxr-xr-x1、修改 hadoop-2...原创 2020-03-16 00:03:22 · 696 阅读 · 0 评论 -
java.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop binaries.
在IDEA里面使用Hadoop上传下载文件报如下错误:java.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop binaries.解决:下载winutils.exe下载地址:https://codeload.github.com/srccodes/hadoop-common-2.2...原创 2020-03-15 23:32:30 · 222 阅读 · 0 评论 -
Hadoop操作命令大全和一些常用的命令
Hadoop操作命令查看所有命令:hdfs dfs查看目录:hdfs dfs -ls /查看目录及子目录:hdfs dfs -ls -R /创建文件夹:hdfs dfs -mkdir /HDFS目录删除目录和子目录:hdfs dfs -rmr /HDFS目录上传:hdfs dfs -put 本地路径 HDFS目录从本地复制:hdfs dfs -copyFromLocal 本地路...原创 2020-03-14 17:52:39 · 656 阅读 · 0 评论 -
大数据概述和背景
1、什么是大数据最早提出在2002年,来源于美国的麦肯锡报告4V特征:Volume(数据量大):PB级Variety(数据多样性):文本、图像、视频、音频等Velocity(输入和处理速度快):流式数据Value(价值密度低):需要积累很多的数据才能发掘大数据隐含的意义,只要能发挥和挖掘数据隐藏的价值,不用纠结于数据量大小由维克托·麦尔-舍恩伯格提出,被称作大数据之父大数据核心问...原创 2020-03-07 17:58:17 · 3838 阅读 · 0 评论 -
Hadoop简介与安装
hadoop简介Apache Hadoop软件库是一个框架,允许使用简单的编程模型跨计算机集群分布式处理大型数据集。它旨在从单个服务器扩展到数千台计算机,每台计算机都提供本地计算和存储。该库本身不是依靠硬件来提供高可用性,而是设计用于检测和处理应用层的故障,从而在计算机集群之上提供高可用性服务,每个计算机都可能容易出现故障。hadoop的思想之源来源于Google在大数据方面的三篇论文GF...原创 2019-07-21 21:32:04 · 156 阅读 · 0 评论 -
Spark简介与安装
spark简介Apache Spark™是用于大规模数据处理的统一分析引擎。特点:1,速度快,比Hadoop快100倍(Hadoop3之前)。2,易于使用,支持多种语言开发。3,通用性,生态系统全。4,兼容性,兼容Hadoop。官网地址:http://spark.apache.org/spark生态圈Spark core: RDD(弹性分布式数据集)Spark SQL:处...原创 2019-06-03 23:35:13 · 162 阅读 · 0 评论