
大数据与Linux随笔
文章平均质量分 53
大数据组件的原理、以及使用、以及一些报错解决。还有linux 的一些基础东西。由于大学的时候主修这个但是毕业后不再往此方向去发展,所以将linux 与 大数据整合为一个专栏了,不然专栏太多、难以管理。
Tony Einstein
记录生活,记录成长,佛系更新。
做一个会解决问题的思考者!希望得到你的关注、点赞、收藏!
展开
-
mysql记录【不断更新】
DELIMITER &&CREATE PROCEDURE test123() BEGIN DECLARE id bigint; ........... END;DELIMITER ;需要注意的是DELIMITER &&和DELIMITER ;两句,DELIMITER是分割符的意思,因为MySQL默认以";“为分隔符,如果我们没有声明分割符,那么编译器会把存储过程当成SQL语句进行处理,则存储过程的编译过程会报错,所以要事先用DELIMITER关原创 2020-09-14 15:49:09 · 154 阅读 · 0 评论 -
spark ML第二篇_ML流程
使用一个小型的合成数据集来帮助使用ML。数据集解释:数据集包括了有两个值(bad、good)的分类标签,以及【其实应该说是哑变量】分类变量(颜色)、两个数值变量。虽然数据是合成的,但让我们假设这个数据集代表了公司的客户健康状况。“颜色”列表示客户服务代表做出的某种分类健康评级。“lab”列表示真实的客户健康状况。其他两个值是应用程序内活动的一些数值度量(例如,在站点上花费的分钟和购买)。假设...原创 2020-01-09 16:29:20 · 1781 阅读 · 0 评论 -
spark ML第一篇_hello Vectors
从官网可以知道的是 MLib是针对RDD数据集的,而ML是针对Dataframe格式的。 ML是对MLib的高级封装,目前来说,MLib已经不再进行功能更新了,好像都不更新了!具体去官网了解。由于官网推荐的是学习和使用 spark dataframe,而且,现实生活中很多数据格式、python库、其它编程语言类库都是偏向于将数据解析成二维表的形式的,所以,我打算学习ML库。虽然MLib比较稳定、...原创 2020-01-09 15:59:01 · 565 阅读 · 0 评论 -
谈谈(详解!)MapReduce--个人感想。
MapReduce的大致计算处理过程:数据是经过mapper 然后 通过Shuffle,最后通过Reducer,然后输出。Map是映射,负责数据的过滤分发;Reduce是规约,负责数据的计算归并。mapper阶段:根据使用者的意愿,mapper对输入的数据进行操作,选取需要的字段(这个字段可能来自原数据中的值,也可能是原数据中的字段,或者是一个新的字段)和值(这个值可能来自原数据,但是更可...原创 2019-12-13 13:10:45 · 2324 阅读 · 0 评论 -
关于Centos7防火墙命令使用
查看防火墙状态。得到结果是running或者not runningfirewall-cmd --state在running 状态下,向firewall 添加需要开放的端口:比如:firewall-cmd --permanent --zone=public --add-port=80/tcp这样外部设备就可以访问到80端口了。重新加载配置,使得修改(刚刚的添加要开放的端口)有效。f...原创 2019-10-22 21:59:25 · 260 阅读 · 0 评论 -
Hbase javaAPI基础操作
首先,main函数如下: public static void main(String[] arg) throws Exception { Configuration conf = new Configuration(); //给conf设置地址与操作用户 conf.set("hbase地址","用户名user"); HBas...原创 2019-10-22 21:56:47 · 326 阅读 · 0 评论 -
Hbase shell过滤操作
Get 和 Scan 操作都可以使用过滤器来设置输出的范围,类似于 SQL 里面的 Where 查询条件。使用 show_filters 命令可以查看当前 HBase 支持的 过滤器类型。show_filters使用过滤器的语法格式:scan '表名',{Filter => ”过滤器(比较运算符,’比较器’)”}解释:Filter=>指明过滤的方法,整体可用大括号引用,也可...原创 2019-10-22 21:53:31 · 3408 阅读 · 0 评论 -
Hbase shell基础操作
一、数据定义命令【表级别的操作、数据库级别的操作】1.输入以下命令进入hbase控制台:hbase shell2.查看所有的表:list3.create创建表:create 'TestLab',{NAME=>'lUE’},VERSIONS=>3},{NAME=>'lab2',BLOCKCACHE=>'true'}或者 create 'TestLab',’l...原创 2019-10-22 21:49:42 · 735 阅读 · 0 评论 -
HDFS shell基础操作
一、操作命令HDFS的操作命令是以"hdfs dfs"开头的命令,其中hdfs是Hadoop系统在Linux系统中的主命令,dfs是子命令,用户通过命令可以完成hdfs文件的复制、移动、查找、删除等操作,HDFS Shell命令的一般格式如下:hdfs dfs [通用选项]其实就是 hdfs dfs -shell命令 -参数 执行内容或者作用的对象1.创建文件夹命令:hdfs dfs...原创 2019-10-22 12:06:05 · 734 阅读 · 0 评论 -
HDFS数据读取过程以及底层原理
读取:原理:在Hadoop里面有一个最初的抽象基类叫FileSystem,可以去继承这个FileSystem抽象基类去实现很多具体的子类。例如去继承FileSystem实现HTTP方式访问相关文件、实现FTP方式进行读写文件,以及继承FileSystem实现DistributedFileSystem类。(1)FileSystem的常用方法:open、read、close、create(2...原创 2019-09-07 16:41:39 · 1067 阅读 · 0 评论 -
HDFS通信方式与存储原理
通信方式:注:其实整个HDFS就是一个库,它向外界暴露HDFS文件系统的接口,让用户使用,但是隐藏了其背后实现功能的复杂性。所有操作除了可以通过api来代码操作实现还可以通过shell命令实现。(1)客户端与名称节点之间的连接:使用客户端的协议(比如TCP/IP);(2)整个集群中名称节点与数据节点之间的交互:使用专门的数据节点协议进行交互;(3)客户端与数据节点交互:通过远程调用RPC...原创 2019-09-07 16:36:18 · 939 阅读 · 1 评论 -
分布式文件系统HDFS 相关概念知识
一、HDFS的局限性:1.不支持实时处理的任务需求。但Hbase满足实时处理需求。2.无法高效存储大量的小文件,因为是以索引结构保存到内存当中去。3.不支持多用户写入以及任意修改文件、只允许追加不允许修改。二、HDFS的相关概念1.块: 块存储,就是把一个物体分成很多块的意思。2.采用块设计的好处:支持大规模文件存储(把其切割然后存储);方便元数据的管理(因为块的大小是固定的);比较...原创 2019-09-07 16:30:34 · 522 阅读 · 0 评论 -
hadoop集群的部署和使用 的基础原理知识
1、Hadoop的两大核心:HDFS(对底层硬件的需求)与MapReduce(对底层硬件的需求)2、整个Hadoop集群的主要节点类别:【属于HDFS】NameNode(名称节点、类似目录服务器,) 和 DataNode(数据节点、存取数据)【访问规则是:先访问NameNode获得具体的数据存储的地点信息、在跑到具体的地址去取数据节点的数据的信息】3、MapReduce的两大核心组件:J...原创 2019-09-07 16:22:57 · 1362 阅读 · 0 评论 -
hadoop三种安装模式的基本原理
Hadoop的安装详情查看本博客本专栏内其它文章一、三种安装模式的运行原理:1.单机模式:Hadoop默认模式、即非分布式模式(本地模式)、无需进行其他配置即可运行非分布式,即java单进程,方便进行调试。2.伪分布式模式: Hadoop在单节点上以伪分布式的方式运行,Hadoop进程以分离的java进程来运行,节点既作为NameNode也作为DataNode,同时,读取的是HDFS中的文件...原创 2019-09-07 16:21:12 · 4026 阅读 · 0 评论 -
hadoop大数据相关了解---第二篇
一、Hadoop应用现状:1.数据来源:数据源2.大数据层:((1)(2)(3)的最底层:基于HDFS分布式文件存储)(1)进行高性分析:Hive、Pig、MR(2)进行实时查询 :Soir、Redis、Hbase(3)BI分析Mahout3.访问层:数据分析 数据实时查询 数据挖掘二、Hadoop版本1.Hadoop1.0(0.20x、0.21x、0.22x)【在1.0版...原创 2019-09-07 16:12:12 · 282 阅读 · 0 评论 -
hadoop大数据相关了解---第一篇
一、大数据技术支撑:1.存储 2.计算 3.网络二、数据收集方式的改变:1.第一阶段:运营式系统阶段2.第二阶段:用户原则内容阶段3.第三阶段:感知式系统阶段三、典型计算模型:1.批处理:针对大规模地批量处理:MapReduce、Spark2.流计算:源源不断地到达系统、S4、Storm、Flume、Streams、DStream、Puma、SuperMario3.图计算:处理...原创 2019-09-07 16:10:39 · 204 阅读 · 0 评论 -
Centos7下hadoop2.7.7的全分布式模式安装
环境介绍:Centos7 + jdk1.8.0_211一、首先、安装JDK1.8.0,详情请移步Centos7下安装配置JDK关闭防火墙(建议关闭、当然也可以自己开放端口)Centos7下防火墙的操作创建一个用户hadoop,当然也可以使用root用户操作。(我的是使用root操作)可以创建一个linux用户叫hadoop作为Hadoop的工作者,因为root下是很危险的。sudo...原创 2019-09-07 16:01:02 · 792 阅读 · 0 评论 -
Cenos7下hadoop2.7.7伪分布式模式安装
环境介绍:Centos7 + jdk1.8.0_211一、首先、安装JDK1.8.0,详情请移步Centos7下安装配置JDK关闭防火墙(建议关闭、当然也可以自己开放端口)Centos7下防火墙的操作创建一个用户hadoop,当然也可以使用root用户操作。(我的是使用root操作)可以创建一个linux用户叫hadoop作为Hadoop的工作者,因为root下是很危险的。sudo...原创 2019-09-07 15:41:57 · 640 阅读 · 0 评论 -
Centos7下Hadoop2.7.7单机模式安装配置
环境介绍:Centos7 + jdk1.8.0_211首先、安装JDK1.8.0,详情请移步Centos7下安装配置JDK创建一个用户hadoop,当然也可以使用root用户操作。(我的是使用root操作)可以创建一个linux用户叫hadoop作为Hadoop的工作者,因为root下是很危险的。sudo useradd -m hadoop -s /bin/bash #创建hado...原创 2019-09-07 15:14:59 · 1750 阅读 · 1 评论