大数据技术总纲
作为学习大数据的相关记录
stepondust
这个作者很懒,什么都没留下…
展开
-
Linux系统Hadoop伪分布式模式配置
一、修改配置文件需要配置相关文件,才能够让Hadoop在伪分布式模式下顺利运行,Hadoop的配置文件位于/usr/local/hadoop/etc/hadoop/中,进行伪分布式模式配置时,需要修改2个配置文件,即core-site.xml和hdfs-site.xml。可以使用vim编辑器打开core-site.xml文件,它的初始内容如下:<configuration>&l...原创 2020-02-07 16:26:09 · 5021 阅读 · 0 评论 -
Linux系统安装Hadoop
一、下载安装文件二、单机模式配置三、伪分布式模式配置四、分布式模式配置五、使用Docker搭建Hadoop分布式集群原创 2020-02-07 17:25:07 · 808 阅读 · 0 评论 -
HBase 操作入门
HBase 有 3 种运行模式,即单机模式、伪分布式模式和分布式模式:单机模式:采用本地文件系统存储数据;伪分布式模式:采用伪分布式模式的 HDFS 存储数据;分布式模式:采用分布式模式的 HDFS 存储数据。在进行 HBase 安装配置之前,需要确认已经安装了 3 个组件:JDK、Hadoo 和 SSH。HBase 是 Hadoop 生态系统中的一个组件,但是,Hadoop 安装以后本身并不包含 HBase,因此需要单独安装 HBase。原创 2020-07-06 00:23:58 · 623 阅读 · 0 评论 -
MongoDB 操作入门
Linux系统上安装MongoDB的步骤都差不多,不过因为我自己的电脑是Ubuntu系统,所以这里展示的是Ubuntu系统上的安装步骤,下面我们一步一步地进行安装:通过head -n 1 /etc/issue命令查看自己Linux系统的系列类别和版本,我的是Ubuntu 18.04.3;到官网下载对应的 MongoDB 安装包,这里给出官网下载地址:https://www.mongodb.com/try#community,然后点击On-Premises选择在自己本地安装...原创 2020-07-03 20:50:23 · 557 阅读 · 0 评论 -
Redis 操作入门
Redis可以存储键KEY与5种不同的基本数据结构类型之间的映射,这5种数据结构类型分别为STRING(字符串)、LIST(列表)SET(集合)、HASH(散列)和 ZSET(有序集合)键Key可以是数字、大小写字母、下画线或者中文,但不建议使用中文。Redis的命令是不区分大小写的,不过一般小写方便于辨认虽然key可以使用中文,但使用redis-cli打开交互界面时不建议使用,因为在列出当前所有key时,中文内容会显示乱码,变得难以阅读,不过使用 redis-cli --raw打开交互界面可以解决原创 2020-05-15 12:44:29 · 749 阅读 · 1 评论 -
初步理解HDFS数据写入过程 + Java代码实现
HDFS的写入数据过程细节上比较复杂,我们根据代码来一步步分析HDFS写入数据的过程:1. 加载配置项;2. 创建文件系统实例;3. 创建文件实例;4. 创建输出流对象;5. 写入数据;6. 关闭实例对象。原创 2020-03-30 11:31:33 · 2022 阅读 · 2 评论 -
初步理解HDFS数据读取过程 + Java代码实现
HDFS的读取数据过程细节上比较复杂,我们根据代码来一步步分析HDFS读取数据的过程:1. 加载配置项;2. 创建文件系统实例;3. 创建文件实例;4. 创建输入流对象;5. 读取数据;6. 关闭实例对象。原创 2020-03-30 11:25:20 · 1147 阅读 · 0 评论 -
HDFS判断文件或目录是否存在——Shell命令实现 + Java代码实现
一、Shell命令实现第一步,启动Hadoop:start-dfs.sh第二步,检测文件或目录是否存在:hdfs dfs -test -e 文件或目录名第三步,查看检测结果:echo $?若输出结果为0,则说明文件或目录存在,若为1,则说明文件或目录不存在。二、Java代码实现import org.apache.hadoop.conf.Configuration;impo...原创 2020-02-17 15:31:15 · 5370 阅读 · 2 评论 -
Linux系统HDFS操作常用Shell命令
HDFS支持很多Shell命令,例如hadoop fs和hdfs dfs都是HDFS最常用的Shell命令,两者功能和用法相同,都可以查看HDFS文件系统的目录结构、上传和下载数据、创建文件等。在使用HDFS的Shell命令时最好配置一下PATH变量,因为每次输入命令都带上路径着实很麻烦,如何PATH变量请参照:Linux系统Hadoop伪分布式模式配置第九条。因为hadoop fs和hdfs...原创 2020-02-12 21:26:55 · 989 阅读 · 0 评论 -
大数据学习笔记(四)——分布式文件系统HDFS
相对于传统的本地文件系统而言,分布式文件系统(Distributed File System)是一种通过网络实现文件在多台主机上进行分布式存储的文件系统,分布式文件系统的设计一般采用“客户端/服务器”(Client/Server)模式,客户端以特定的通信协议通过网络与服务器建立连接,提出文件访问请求,客户端和服务器可以通过设置访问权来限制请求方对底层数据存储块的访问。原创 2020-02-11 09:45:00 · 3638 阅读 · 0 评论 -
大数据学习笔记(三)——大数据处理框架Hadoop
第三章 大数据处理框架Hadoop3.1 概述3.1.1 Hadoop简介Hadoop是Apache软件基金会旗下的一个开源分布式计算平台,为用户提供了系统底层细节透明的分布式基础架构。Hadoop 是基于Java语言开发的,具有很好的跨平台特性,并且可以部署在廉价的计算机集群中。Hadoop 的核心是分布式文件系统HDFS(Hadoop Distributed File System)和MapReduce……原创 2020-01-25 14:42:47 · 3761 阅读 · 0 评论 -
大数据学习笔记(二)——Linux系统的安装和使用
第二章 Linux系统的安装和使用2.1 Linux系统简介2.2 Linux系统安装2.3 Linux系统及相关软件的基本使用方法原创 2020-01-23 22:37:21 · 632 阅读 · 0 评论 -
大数据学习笔记(一)——大数据概述
第一章 大数据概述1.1 大数据时代1.1.1 信息科技为大数据时代提供技术支持①存储设备容量不断増加——解决了信息存储的问题②CPU处理能力大幅提升——解决了信息处理的问题③网络带宽不断増加——解决了信息传输的问题1.1.2 数据产生方式的变革促成大数据时代的来临数据是我们通过观察、实验或计算得出的结果。数据和信息是两个不同的概念。信息是较为宏观的概念,它由数据的有序排列组合而成...原创 2020-01-21 22:05:17 · 4666 阅读 · 0 评论