大数据与Linux随笔_Tony Einstein的博客-CSDN博客

大数据与Linux随笔

关注

文章平均质量分 53

大数据组件的原理、以及使用、以及一些报错解决。还有linux 的一些基础东西。由于大学的时候主修这个但是毕业后不再往此方向去发展，所以将linux 与大数据整合为一个专栏了，不然专栏太多、难以管理。

关注数：文章数：19 文章阅读量：22159 文章收藏量：81

作者: Tony Einstein

记录生活，记录成长，佛系更新。做一个会解决问题的思考者！希望得到你的关注、点赞、收藏！

展开

专栏收录文章

mysql记录【不断更新】

DELIMITER &&CREATE PROCEDURE test123()　　BEGIN　　　　DECLARE id bigint;　　　　...........　　END;DELIMITER ;需要注意的是DELIMITER &&和DELIMITER ;两句，DELIMITER是分割符的意思，因为MySQL默认以";“为分隔符，如果我们没有声明分割符，那么编译器会把存储过程当成SQL语句进行处理，则存储过程的编译过程会报错，所以要事先用DELIMITER关

原创 2020-09-14 15:49:09 · 161 阅读 · 0 评论
spark ML第二篇_ML流程

使用一个小型的合成数据集来帮助使用ML。数据集解释：数据集包括了有两个值(bad、good)的分类标签，以及【其实应该说是哑变量】分类变量（颜色）、两个数值变量。虽然数据是合成的，但让我们假设这个数据集代表了公司的客户健康状况。“颜色”列表示客户服务代表做出的某种分类健康评级。“lab”列表示真实的客户健康状况。其他两个值是应用程序内活动的一些数值度量(例如，在站点上花费的分钟和购买)。假设...

原创 2020-01-09 16:29:20 · 1798 阅读 · 0 评论
spark ML第一篇_hello Vectors

从官网可以知道的是 MLib是针对RDD数据集的，而ML是针对Dataframe格式的。 ML是对MLib的高级封装，目前来说，MLib已经不再进行功能更新了，好像都不更新了！具体去官网了解。由于官网推荐的是学习和使用 spark dataframe，而且，现实生活中很多数据格式、python库、其它编程语言类库都是偏向于将数据解析成二维表的形式的，所以，我打算学习ML库。虽然MLib比较稳定、...

原创 2020-01-09 15:59:01 · 573 阅读 · 0 评论
谈谈(详解！)MapReduce--个人感想。

MapReduce的大致计算处理过程:数据是经过mapper 然后通过Shuffle,最后通过Reducer，然后输出。Map是映射，负责数据的过滤分发；Reduce是规约，负责数据的计算归并。mapper阶段:根据使用者的意愿，mapper对输入的数据进行操作，选取需要的字段(这个字段可能来自原数据中的值，也可能是原数据中的字段，或者是一个新的字段)和值(这个值可能来自原数据，但是更可...

原创 2019-12-13 13:10:45 · 2338 阅读 · 0 评论
关于Centos7防火墙命令使用

查看防火墙状态。得到结果是running或者not runningfirewall-cmd --state在running 状态下，向firewall 添加需要开放的端口:比如：firewall-cmd --permanent --zone=public --add-port=80/tcp这样外部设备就可以访问到80端口了。重新加载配置，使得修改(刚刚的添加要开放的端口)有效。f...

原创 2019-10-22 21:59:25 · 272 阅读 · 0 评论
Hbase javaAPI基础操作

首先，main函数如下: public static void main(String[] arg) throws Exception { Configuration conf = new Configuration(); //给conf设置地址与操作用户 conf.set("hbase地址","用户名user"); HBas...

原创 2019-10-22 21:56:47 · 338 阅读 · 0 评论
Hbase shell过滤操作

Get 和 Scan 操作都可以使用过滤器来设置输出的范围，类似于 SQL 里面的 Where 查询条件。使用 show_filters 命令可以查看当前 HBase 支持的过滤器类型。show_filters使用过滤器的语法格式：scan '表名',{Filter => ”过滤器(比较运算符,’比较器’)”}解释：Filter=>指明过滤的方法,整体可用大括号引用,也可...

原创 2019-10-22 21:53:31 · 3444 阅读 · 0 评论
Hbase shell基础操作

一、数据定义命令【表级别的操作、数据库级别的操作】1.输入以下命令进入hbase控制台:hbase shell2.查看所有的表:list3.create创建表:create 'TestLab',{NAME=>'lUE’},VERSIONS=>3},{NAME=>'lab2',BLOCKCACHE=>'true'}或者 create 'TestLab',’l...

原创 2019-10-22 21:49:42 · 748 阅读 · 0 评论
HDFS shell基础操作

一、操作命令HDFS的操作命令是以"hdfs dfs"开头的命令，其中hdfs是Hadoop系统在Linux系统中的主命令，dfs是子命令，用户通过命令可以完成hdfs文件的复制、移动、查找、删除等操作，HDFS Shell命令的一般格式如下：hdfs dfs [通用选项]其实就是 hdfs dfs -shell命令 -参数执行内容或者作用的对象1.创建文件夹命令：hdfs dfs...

原创 2019-10-22 12:06:05 · 763 阅读 · 0 评论
HDFS数据读取过程以及底层原理

读取：原理：在Hadoop里面有一个最初的抽象基类叫FileSystem，可以去继承这个FileSystem抽象基类去实现很多具体的子类。例如去继承FileSystem实现HTTP方式访问相关文件、实现FTP方式进行读写文件，以及继承FileSystem实现DistributedFileSystem类。(1)FileSystem的常用方法：open、read、close、create(2...

原创 2019-09-07 16:41:39 · 1076 阅读 · 0 评论
Cenos7下hadoop2.7.7伪分布式模式安装

环境介绍:Centos7 + jdk1.8.0_211一、首先、安装JDK1.8.0，详情请移步Centos7下安装配置JDK关闭防火墙(建议关闭、当然也可以自己开放端口)Centos7下防火墙的操作创建一个用户hadoop，当然也可以使用root用户操作。(我的是使用root操作)可以创建一个linux用户叫hadoop作为Hadoop的工作者，因为root下是很危险的。sudo...

原创 2019-09-07 15:41:57 · 653 阅读 · 0 评论
Centos7下hadoop2.7.7的全分布式模式安装

环境介绍:Centos7 + jdk1.8.0_211一、首先、安装JDK1.8.0，详情请移步Centos7下安装配置JDK关闭防火墙(建议关闭、当然也可以自己开放端口)Centos7下防火墙的操作创建一个用户hadoop，当然也可以使用root用户操作。(我的是使用root操作)可以创建一个linux用户叫hadoop作为Hadoop的工作者，因为root下是很危险的。sudo...

原创 2019-09-07 16:01:02 · 807 阅读 · 0 评论
hadoop大数据相关了解---第一篇

一、大数据技术支撑：1.存储 2.计算 3.网络二、数据收集方式的改变：1.第一阶段：运营式系统阶段2.第二阶段:用户原则内容阶段3.第三阶段:感知式系统阶段三、典型计算模型:1.批处理:针对大规模地批量处理:MapReduce、Spark2.流计算：源源不断地到达系统、S4、Storm、Flume、Streams、DStream、Puma、SuperMario3.图计算:处理...

原创 2019-09-07 16:10:39 · 215 阅读 · 0 评论
hadoop大数据相关了解---第二篇

一、Hadoop应用现状:1.数据来源：数据源2.大数据层：((1)(2)(3)的最底层：基于HDFS分布式文件存储)（1）进行高性分析：Hive、Pig、MR(2)进行实时查询：Soir、Redis、Hbase（3）BI分析Mahout3.访问层：数据分析数据实时查询数据挖掘二、Hadoop版本1.Hadoop1.0(0.20x、0.21x、0.22x)【在1.0版...

原创 2019-09-07 16:12:12 · 285 阅读 · 0 评论
hadoop三种安装模式的基本原理

Hadoop的安装详情查看本博客本专栏内其它文章一、三种安装模式的运行原理:1.单机模式：Hadoop默认模式、即非分布式模式(本地模式)、无需进行其他配置即可运行非分布式，即java单进程，方便进行调试。2.伪分布式模式： Hadoop在单节点上以伪分布式的方式运行，Hadoop进程以分离的java进程来运行，节点既作为NameNode也作为DataNode，同时，读取的是HDFS中的文件...

原创 2019-09-07 16:21:12 · 4039 阅读 · 0 评论
hadoop集群的部署和使用的基础原理知识

1、Hadoop的两大核心：HDFS(对底层硬件的需求)与MapReduce(对底层硬件的需求)2、整个Hadoop集群的主要节点类别：【属于HDFS】NameNode（名称节点、类似目录服务器,）和 DataNode(数据节点、存取数据)【访问规则是：先访问NameNode获得具体的数据存储的地点信息、在跑到具体的地址去取数据节点的数据的信息】3、MapReduce的两大核心组件：J...

原创 2019-09-07 16:22:57 · 1383 阅读 · 0 评论
分布式文件系统HDFS 相关概念知识

一、HDFS的局限性：1.不支持实时处理的任务需求。但Hbase满足实时处理需求。2.无法高效存储大量的小文件，因为是以索引结构保存到内存当中去。3.不支持多用户写入以及任意修改文件、只允许追加不允许修改。二、HDFS的相关概念1.块: 块存储，就是把一个物体分成很多块的意思。2.采用块设计的好处：支持大规模文件存储(把其切割然后存储)；方便元数据的管理(因为块的大小是固定的)；比较...

原创 2019-09-07 16:30:34 · 532 阅读 · 0 评论
HDFS通信方式与存储原理

通信方式:注：其实整个HDFS就是一个库，它向外界暴露HDFS文件系统的接口，让用户使用，但是隐藏了其背后实现功能的复杂性。所有操作除了可以通过api来代码操作实现还可以通过shell命令实现。(1)客户端与名称节点之间的连接:使用客户端的协议(比如TCP/IP);(2)整个集群中名称节点与数据节点之间的交互：使用专门的数据节点协议进行交互;(3)客户端与数据节点交互：通过远程调用RPC...

原创 2019-09-07 16:36:18 · 960 阅读 · 1 评论
Centos7下Hadoop2.7.7单机模式安装配置

环境介绍:Centos7 + jdk1.8.0_211首先、安装JDK1.8.0，详情请移步Centos7下安装配置JDK创建一个用户hadoop，当然也可以使用root用户操作。(我的是使用root操作)可以创建一个linux用户叫hadoop作为Hadoop的工作者，因为root下是很危险的。sudo useradd -m hadoop -s /bin/bash #创建hado...

原创 2019-09-07 15:14:59 · 1775 阅读 · 1 评论

大数据与Linux随笔

作者: Tony Einstein

mysql记录【不断更新】

spark ML第二篇_ML流程

spark ML第一篇_hello Vectors

谈谈(详解！)MapReduce--个人感想。

关于Centos7防火墙命令使用

Hbase javaAPI基础操作

Hbase shell过滤操作

Hbase shell基础操作

HDFS shell基础操作

HDFS数据读取过程以及底层原理

Cenos7下hadoop2.7.7伪分布式模式安装

Centos7下hadoop2.7.7的全分布式模式安装

hadoop大数据相关了解---第一篇

hadoop大数据相关了解---第二篇

hadoop三种安装模式的基本原理

hadoop集群的部署和使用 的基础原理知识

分布式文件系统HDFS 相关概念知识

HDFS通信方式与存储原理

Centos7下Hadoop2.7.7单机模式安装配置

hadoop集群的部署和使用的基础原理知识