飘羽-CSDN博客

原创 Hadoop 3.0X 大数据平台相关软件包（jdk、Hadoop、Hbase...等）下载链接

hadoop生态系统软件包下载

2023-08-23 20:21:08 454

原创 Hadoop生态系统各个组件启动顺序

启动顺序：Hadoop -> MySQL -> Hive -> ZooKeeper -> HBase -> Spark -> Kafka -> Flink。关闭顺序：Flink -> Kafka -> Spark -> HBase -> ZooKeeper -> Hive-> Hadoop。④启动Spark集群前需先启动Hadoop集群（若需连接Hive获取数据则需先启动MySQL、Hive元数据服务）Hadoop集群与Spark集群。③启动HBase集群前需先启动。⑥启动Kafka集群前需先启动。

2023-08-22 10:29:34 1702

原创 Centos7下的MySQL服务启动和关闭

1. 临时启动：在MySQL所在节点执行命令：2. 临时关闭：在MySQL所在节点执行命令：3. 查看：在MySQL所在节点执行命令：4. 永久启动：在MySQL所在节点执行命令：5. 永久关闭：在MySQL所在节点执行命令：

2023-08-22 10:20:09 1362

原创 Hive集群启动过程（Centos7）

hive --service metastore & （&表示放在后台运行）注意：也可以设置MySQL开机自启：systemctl enable mysqld。

2023-08-22 09:34:49 602

原创 Idea配置Scala开发环境

打开项目test---->src---->main---->java----->在java文件上右键---- >new----->scala class----->Test--->选择Object；接下来就可以编程了。File ---->new---->project-----Maven--->Next----输入名称(test)---->finish.在新建的项目上右键------>“Add FrameWorkSuppor”------->选中scala-----ok。

2023-08-07 11:47:18 3202 1

原创 Hive终端命令行打印很多日志时，如何设置日志级别

示例：use test;切换到test数据库时，输出很多日志信息不方便看结果，如下图。

2023-08-06 17:14:19 1934 1

原创配置Hive远程服务详细步骤

HiveServer2支持多客户端的并发和认证，为开放API客户端如JDBC、ODBC提供了更好的支持。（4）一定要在启动Hadoop集群、MySQL服务、Hive元数据库服务后，最后再启动Hive远程服务。（3）将core-site.xml配置文件使用scp命令发送给各子节点。5）验证是否成功开启远程服务。

2023-08-06 17:05:08 1059

原创 Hive内部表和外部表的区别

（仅删除表名，实际数据不会被删除，在HDFS的路径下还是可以看到）。（表名连同实际数据会被删除）

2023-08-06 15:43:49 165

原创 Hive创建外部表详细步骤

② 在hive中执行HDFS命令：上传/emp.txt至HDFS的data目录下，并命名为emp_out。① 在hive中执行HDFS命令：创建/data目录。③ 创建外部表：emp_out。

2023-08-06 15:29:21 5102

原创 Hive创建内部表详细步骤

② 将Linux本地数据导入至emp_in表（复制操作）先将emp.txt文件上传到linux本地根目录下（③ 将HDFS数据导入至emp_in表（剪切操作）HDFS文件系统的根目录下（1.创建内部表SQL语句。

2023-08-06 15:01:29 1191

原创安装部署Spark集群以及运行WordCount详细步骤

words调用mapToPair这个transformation算子（参数类型是PairFunction接口实现类，PairFunction<String, String, Integer>的三个参数是<输入单词, Tuple2的key, Tuple2的value>），返回一个新的RDD，即JavaPairRDD。注意：本文档使用的 spark 是 1.2.0 版本，实际培训时可能会改变，在进行操作时，请替换成实际的版本。* 1、创建SparkConf对象，设置Spark应用程序的配置信息。

2023-04-03 20:46:27 1009 1

原创分布式数据库HBase安装部署与应用

除了列（COLUMNS）修饰词外，HBase 还支持 Limit（限制查询结果行数），STARTROW（ROWKEY 起始行，会先根据这个 key 定位到 region，再向后扫描）、STOPROW(结束行)、TIMERANGE（限定时间戳范围）、VERSIONS（版本数）、和 FILTER（按条件过滤行）等。# 获取指定行中指定列族下所有列的数据信息 get 'Student','rowkey3','baseInfo'# 获取指定行中所有列的数据信息 get 'Student','rowkey3'

2023-04-03 20:34:38 1752

原创 WordCount 在 MapReduce上运行详细步骤

点击导航栏window-->show View-->other，选中MapReduce Tools中的Map/Reduce Locations，并点击“ok”按钮。点击finish，后在eclipse界面左上角就会出现HDFS本地连接，以及可以看到HDFS上的文件结构目录。运行程序：右键程序Run as--->Run on Hadoop,运行完毕后，刷新目录如下图，打开WordCount目录，右键点击src文件夹，选择new--->Class。点击下一步，然后输入WordCount，并点击完成。

2023-04-03 20:14:00 1673

原创 Hadoop分布式集群安装部署（Redhat 6.4 64位操作系统）

P 地址是 192.168.222.100，slave 对应的 IP 是 192.168.222.100，而自己在做配置时，需要将这两个 IP 地址改为你的 master 和 slave 对应的 IP 地址。选中要配置的虚拟机，然后点击右键--->设置--->网络适配器--->“自定义（U）：特定虚拟网络”--->VMnet*(NAT)模式--->确定。配置VMWare网络模式，虚拟机中点击“编辑”--->“虚拟网络编辑器”，删除其他网络模式，只保留NAT模式，如下图，出现以下信息表示配置成功。

2023-04-03 15:49:52 819

原创朴素贝叶斯简介

朴素贝叶斯分类器是一种基于贝叶斯定理的弱分类器，所有朴素贝叶斯分类器都假定样本每个特征与其他特征都不相关。举个例子，如果一种水果其具有红，圆，直径大概3英寸等特征，该水果可以被判定为是苹果。尽管这些特征相互依赖或者有些特征由其他特征决定，然而朴素贝叶斯分类器认为这些属性在判定该水果是否为苹果的概率分布上独立的。：结合朴素贝叶斯分类器和协作过滤构建推荐系统，该系统使用机器学习和数据挖掘技术过滤看不见的信息并预测用户是否喜欢系统做出的推荐。：该模型常用于文本分类，特征是单词，值是单词的出现次数。

2022-11-25 10:41:16 2463

原创 Centos7的系统镜像下载链接

centos7系统镜像源

2022-10-10 17:12:01 676

原创 RedHat Enterprise Linux-4-8系列（RHEL4，5，6，7，8）操作系统百度云下载链接

https://pan.baidu.com/s/1MIRBAobzetqly9TqGDwTnw提取码：9n6h链接：https://pan.baidu.com/s/19-38v8Gli4Yv_Dmb5qDYlA?pwd=1234 提取码：1234

2022-06-15 15:33:37 3948

原创 Centos7中，普通用户在更新official CentOS 7 repository报错：linux xxx is not in the sudoers file.This incident ..

问题：普通用户更新CentOS 7 repository，执行命令：sudo yum check-update报错：linux xxx is not in the sudoers file.This incident will be reported.（xxx是你的用户名）解决方法：1.首先切换到root用户下2.添加sudo文件的写权限,命令是:chmod u+w /etc/sudoers3.编辑sudoers文件vi /etc/sudoers找到这行 root A

2022-04-13 16:49:36 720

转载写大论文时，图、表交叉引用，并制作图和表目录

1. 首先在引用中找到题注操作2 在弹出窗口中点“新建标签”。再在“新建标签”窗口中输入“图”字。这样将来生成的题注就会是“图 1”、“图 2”的形式。如果想生成的题注是“表 1”、“表 2”的形式，只要在“新建标签”窗口中输入“表”字，其他形式按此方法类推。两个步骤后，就已经给文档中的一张图片添加了题注。然后需要对文档中每一个图片都执行上面的操作。3 生成图表目录：题注添加好后，就可以生成图表目录了。1、把光标定位到要插入图表目录的地方。2、点“插入→域”。4

2022-03-28 02:04:11 6271

原创 Maven安装部署详细步骤（Win7系统）

1 下载Maven安装包，如图选择第二个进行下载。Maven – Download Apache Maven2. 将安装包解压到D:\Program Files，如图所示，3. 配置环境环境变量，4. 进行验证，命令为：mvn -v，出如图信息则表示安装成功。5 配置本地仓库，首先在D:\Program Files\apache-maven-3.8.4-bin中创建文件夹，命名为：maven-repository。配置仓库路径，在D:\..

2022-01-07 21:14:12 3180

原创 Python画图plt的 text()方法的使用

（1）text方法：plt.text(x, y, string, size, family, color, style, weight, bbox=dict(facecolor, alpha, boxstyle))x: 文本位置的横坐标y:文本位置的纵坐标string：文本内容size：文本字体大小family：文本字体类型：比如宋体、Times new roman等color：文本字体颜色style：文本字体风格：italic（斜体）weight：文本线条粗细：lig

2021-11-15 15:53:31 18543

原创 Python的plt画图中常用颜色值对应的单词

python中的plt画图常用的颜色单词，如下表所示：希望能够帮到您！谢谢采纳！

2021-11-15 15:28:59 12379 1

原创 Python基于plt画图，并且添加拟合公式代码

__author__ = 'Administrator'# coding=utf8 # 导入相关包import matplotlib.pyplot as pltimport numpy as npfrom pandas import read_csvfrom sklearn.metrics import r2_score # 读取数据假设数据为200行*100列的数据表url = 'test.csv' # 定义路径data = read_csv(url, heade.

2021-11-14 18:31:41 3323

原创基于Python的多项式拟合方法

1. 直接上代码进行介绍__author__ = 'Administrator'# coding=utf8# 导入相关包import matplotlib.pyplot as pltimport numpy as npfrom pandas import read_csvfrom sklearn.metrics import r2_score# 读取数据假设数据为200行*100列的数据表url = 'test.csv' # 定义路径data = read_csv.

2021-11-13 16:20:08 9782 2

原创 Python报错：unsupported operand type(s) for ** or pow(): ‘list‘ and ‘int‘

1. 问题分析：首先通过报错信息可以在数据计算时报错，原因是数据格式统一：一种是list格式，另一种第int格式。2. 解决方法：我们可以将list格式转换成数组格式，重新调用计算函数，发现问题已解决。具体操作：（1）首先需要引入对应包：import numpy as np（2）然后进行数据格式转化，加入‘x’为list类型，将其转换成数组的代码：x = np.array(x)（3）重新调用计算方法即可。希望能够帮到您！谢谢参考！...

2021-11-11 23:40:48 27039

原创 Win7环境下，由于更新“pip“失败，报错：“no module named pip”

导致问题原因：这是由于更新pip不成功，导致旧版本也无法正常使用。解决方法：使用Python自带的软件包安装命令进行重新安装。1. 首先，以管理员身份运行命令终端：2. 然后，运行命令：python -m ensurepip希望能够帮助您解决了您的问题，谢谢采纳！...

2021-11-08 20:59:46 733

原创 Hadoop集群如何进行扩展计算节点？

如添加node041 修改 /etc/hosts 文件，添加新节点的主机名和IP映射信息,命令：vi /etc/hosts172.24.240.20 namenode172.24.240.21 node01172.24.240.22 node02172.24.240.23 node03172.24.240.24 node042 更改Hadoop软件的配置信息，添加新节点信息，如下命令为： vi hadoop-2.7.2/etc/hadoop/slavesnode01n...

2021-10-10 17:04:01 1078

原创 Hadoop集群启动后，发现两个计算节点交替的启动，怎么办？

1、原因：是因为这两个节点相同的 datanodeUuid导致的。2、解决方法：（1）打开两个节点的VERSION文件查看：命令为：vi /home/source/gjn/datanode/current/VERSION（其中“/home/source/gjn/datanode”为在hdfs-site.xml文件中配置的HDFS的集群目录）如， <property> <name>dfs.datanode.d...

2021-10-10 16:39:37 642

原创 Centos7配置阿里云的yum源详细步骤

1. 进入到yum文件夹cd /etc/yum.repos.d/2.安装wget工具yum -y install wget3. 基于wget下载repo文件wget http://mirrors.aliyun.com/repo/Centos-7.repo4. 对原来的yum文件进行备份mv CentOs-Base.repo CentOs-Base.repo.bak5. 将下载的新yum文件改名文系统原来的yum文件名称mv Centos-7.repo Cent.

2021-09-19 20:28:05 7019

原创集群运行spark程序： java.lang.IllegalStateException: Subprocess exited with status 1. Command ran: ****

————当在集群模式下提交spark程序进行运行时，报错：java.lang.IllegalStateException: Subprocess exited with status 1. Command ran: ******************1. 首先寻找问题出现的原因：原因是基于Spark程序中调用的执行程序或命令无法正常执行的原因。2. 解决方法：由于是spark程序间接调用的程序，因此不会直接报出具体原因，只会告诉是子程序执行异常。方案一：抛开集群的运行，先后现需要.

2021-09-18 10:55:49 2139

原创 shell脚本中，命令按行顺序执行不同方式

1. 执行命令中间的“分号”代表命令之间没有逻辑关系，分号连接的命令会按照顺序从前向后依次执行，但分号两端的命令之间没有任何逻辑关系，所有写出来的命令最终都会被执行，即使分号前面的命令出错也不影响后面的命令。例如：comman1 ； command22. “&&”表示逻辑与。&&连接的命令会按照顺序从前向后执行，只有当command1正确执行才执行command2，如果command1不正确执行，则不执行command2。在bash中，通过预定义变量“$?”来判断

2021-09-18 10:33:05 5953

原创 centos在单用户模式下修改Selinux和runlevel时没有写权限

解决方法：首先登录到单用户模式下：输入命令：mount -o remount, rw / （将根目录重新挂载为读写权限，-o,指option）然后进行修改相应配置信息即可。希望能够帮到您！

2021-01-23 21:10:49 1174

原创如何在Linux下设置目录或文件可读写，但不可以删除权限

例如：现在/home目录下有：目录 data 和文件 test.txt （1）设置/home/test.txt可读写但是不可以删除命令(文件设置)： sudo chattr +a /home/test.txt （2）取消此权限命令（文件设置）： sudo chattr -a /home/test.txt （3）递归的设置/home/data文件夹的可读写，但是不可以删除权限命令（目录设置）： ...

2020-11-10 21:05:16 4008

原创 Linux 下创建新用户并且添加为root组用户

1. 创建用户及设置密码创建用户名： useradd test 设置密码： passwd test 输入两次密码：test2 给新用户授root权限（1） chmod -v u+w /etc/sudoers （增加 sudoers 文件的写的权限，默认为只读）（2）vim /etc/sudoers （3）找到：root ALL=(ALL) ALL ...

2020-11-10 20:53:30 14570

原创 Centos6.5中执行命令时报错：libc.so.6: version GLIBC_2.14 not found

首先，查看系统版本和glibc库版本：1 查看系统版本的命令： cat /etc/redhat-release2. 查看glibc库版本命令：strings /lib64/libc.so.6 |grep GLIBC_可以看出系统是CentOS 6.5，最高支持glibc的版本为2.12（我已升级为2.14版本了），目前需要的是2.14版本，因此需要升级。3. 升级glibc库（1）下载源码包： wget ...

2020-11-10 20:43:23 596

原创 Centos6.5运行java时报错：ClassNotFoundException:com.mysql.jdbc.Driver

原因：报错是找不到MySQL数据库的驱动程序jar包，解决办法：将MySQL的驱动 jar 包放在JDK安装包对应目录下：jdk1.7.0_25\jre\lib\ext 重新运行程序，发现已经运行成功。感谢采纳，希望能够解决您的问题！...

2020-11-10 10:48:59 244

转载邻接矩阵的理解与应用

邻接矩阵（Adjacency Matrix）是表示顶点之间相邻关系的矩阵。设G=(V,E)是一个图，其中V={v1,v2,…,vn}[1]。G的邻接矩阵是一个具有下列性质的n阶方阵：（1）对无向图而言，邻接矩阵一定是对称的，而且主对角线一定为零（在此仅讨论无向简单图），副对角线不一定为0，有向图则不一定如此。（2）在无向图中，任一顶点i的度为第i列（或第i行）所有非零元素的个数，在有向图中顶点i的出度为第i行所有非零元素的个数，而入度为第i列所有非零元素的个数。（3）用邻接矩阵法表示图共需...

2020-11-09 09:37:47 5932 1

原创协方差的理解与计算

1、定义 E[(X-E(X))(Y-E(Y))] 称为随机变量X和Y的协方差, 记作COV(X,Y), 即COV(X,Y)=E[(X-E(X))(Y-E(Y))]。通过推到E[(X-E(X))(Y-E(Y))] = E(XY)-E(X)E(Y)实例计算：有两个变量分别是X和Y，其值分别如下， Xi ： 2 3 4 5 Yi： 6 7 8 9 计算期望：...

2020-10-08 16:28:22 18429

原创数学期望的理解和计算

1、数学期望指的就是大家经常说的平均数，通常用“E”来表示。实例说明：某城市有10万个家庭，没有孩子的家庭有1000个，有一个孩子的家庭有9万个，有两个孩子的家庭有6000个，有3个孩子的家庭有3000个。则此城市中任一个家庭中孩子的数目是一个随机变量，记为X。它可取值0，1，2，3。其中X的取值概率，（1）取0的概率为：1000/100000=0.01 （2）取1的概率为：90000/100000=...

2020-10-08 16:09:47 8607 1

原创爬取猫眼电影top100榜单时，发现最后的输出为空文件，如何解决？

个人的测试代码：import requestsfrom bs4 import BeautifulSoupheaders = {}headers['User-Agent'] = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36'fw = open('maoyan_top100.txt', 'w')

2020-09-26 10:31:48 1510