自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 资源 (1)
  • 收藏
  • 关注

原创 flume拉数据到kafka

文件数据在/opt/mydata/下面1.配置flume将写好的配置文件拉到/opt/目录下面a1.channels = c1a1.sources = s1a1.sinks = k1a1.sources.s1.type = spooldira1.sources.s1.spoolDir = /opt/mydata/usersa1.sources.s1.interceptors = i1a1.sources.s1.interceptors.i1.type = regex_filtera1.

2021-12-30 17:41:59 299

原创 【数据存储】分布式文件系统SeaweedFS

2021.05.25初始seaweedFS安装1、先去GitHub下载所需版本linux_amd64.tar.gz2、然后放到服务器的文档中/opt/software3、解压安装tar -zxvf ./linux_amd64.tar.gz -C /opt/install/seaweed4、在seaweed安装包下安装seaweedfs文件夹及其下属两个文件夹mkdir -p ./seaweedfs/data ./seaweedfs/volume5、用以下命令查看master

2021-06-02 13:14:24 1980 1

原创 【大数据】hadoop分布式数据库--HBase1.2.0伪分布式安装

HBase1.2.0伪分布式模式安装1.首先下载hbase1.2.0压缩包2.放到linux虚拟机的opt目录下[root@lqq ~]# cd /opt3.解压压缩包[root@lqq opt]# tar -zxf hbase-1.2.0-cdh5.14.2.tar.gz4.创建一个新的文件夹并把解压后的文件移动到此文件夹下[root@lqq opt]# mkdir soft/habase120[root@lqq opt]# mv hbase-1.2.0-cdh5.14.2 soft/h

2020-06-21 23:58:37 213

原创 【大数据】数据仓库Hive--Hive基础知识

1.认识HiveHive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,可以将SQL语句转换为MapReduce任务运行。Hive提供了一系列的工具,可以用来进行数据提取转化加载(ETL),是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。2.Hive的优势和特点提供了一个简单的优化模型HQL类SQL语法,简化MR开发支持在不同的计算框架上运行支持在HDFS和HBase上临时查询数据支持用户自定义函数、格式成熟的JDBC和

2020-06-15 11:45:17 388

原创 【大数据】hadoop分布式计算框架--MapReduce

Map

2020-06-07 16:34:20 330

原创 【大数据】hadoop分布式文件系统--HDFS基础命令操作

HDFS为使用者提供了基于shell操作命令来管理HDFS上的数据的功能。1.先启动hadoop:start-all.sh2.列出文件目录命令:hdfs dfs -ls 目录路径示例:查看HDFS根目录下的文件:hdfs dfs -ls /3.在HDFS中创建文件夹命令:hdfs dfs -mkdir 文件夹名称示例:在HDFS的根目录下创建名为datatest的文件夹:hdfs dfs -mkdir /datatest但如果想级联创建一个文件夹,需要在-mkdir命令后指定-p参数:hd

2020-06-04 09:41:49 1128

原创 【大数据】hadoop分布式文件系统--HDFS

Hadoop提供了许多文件系统的接口,用户可以使用URI方案选取合适的文件系统来实现交互HDFS:Hadoop Distributeed File SystemHDFS优点:处理超大文件运行在廉价机器上流式地访问数据:一次写入,多次读取HDFS缺点:不适合低延迟数据访问无法高效存储大量小文件HDFS基础...

2020-06-04 09:20:45 183

原创 【大数据】hadoop--linux单机版安装(伪分布式)

1、JDK(建议使用JDK1.8.11)2、将hadoop-2.6.0-cdh5.14.2.tar.gz拖到root下的opt文件夹

2020-06-03 15:12:13 200

原创 【数据处理】正则表达式笔记

klk

2020-05-14 08:43:45 141

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除