方赵祥-CSDN博客

原创搭建单机伪分布式Hadoop+spark+scala

官网地址：https://www.oracle.com/java /technologies /javase-jdk8-downloads.html。复制/opt/hadoop/etc/hadoop/mapred-site.xml.tmplate 名为mapred-site.xml。步骤三：编辑/opt/hadoop/etc/hadoop/hadoop-env.sh文件。编辑/opt/hadoop/etc/hadoop/mapred-site.xml文件。步骤二：卸载自带 OpenJDK。

2024-04-26 17:39:31 776 1

原创 hive配置与安装

这里没有这个配置文件，咱们可以复制一个。8、修改hive-site.xml。2、上传至software目录下。1、hive下载地址。7、查看hive版本。

2024-04-08 21:43:00 143 1

原创 Yum仓库镜像源

Yum仓库镜像源是指将原始的Yum仓库数据复制到本地服务器上，以便在没有直接访问互联网的情况下，也能够安装和更新软件包。清理Yum缓存：下载配置文件后，运行yum clean all清除旧的缓存，然后使用yum makecache重新生成缓存，以便Yum能够识别新的仓库配置。备份原有的Yum仓库配置文件：在进行任何更改之前，建议备份/etc/yum.repos.d/目录下的现有配置文件，以防配置出错时可以恢复。选择合适的镜像源：根据您的地理位置和带宽选择一个离您较近且响应速度快的镜像源。

2024-03-22 13:54:25 160 1

原创如何配置永久IP地址

对于基于Systemd的系统（如CentOS 7及以上版本），您可以编辑 /etc/sysconfig/network-scripts/ifcfg- 文件，其中是您的网络接口名称，例如 eth0 或 ens33。此外，如果您的系统使用的是NetworkManager而不是传统的ifup/ifdown工具，配置方法可能会略有不同。如果您需要在系统重启后仍然保持IP地址不变，您需要将配置信息添加到相应的网络配置文件中，以便系统在启动时自动应用这些设置。

2024-03-22 13:47:57 2094 1

原创基本数据类型

基本数据类型数据类型是C语言编程中最为基本的组成部分。在C语言中，有4类不同的数据类型：基本类型，构造类型，指针类型及空类型。

2024-03-08 17:05:58 316 1

原创冷备温备热备

按备份系统的准备程度，可将其分为冷备份、温备份和热备份三大类 :1. 冷备份 : 备份系统未安装或未配置成与当前使用的系统相同或相似的运行环境，应用系统数据没有及时装入备份系统。一旦发生灾难，需安装配置所需的运行环境，用数据备份介质(磁带或光盘) 恢复应用数据，手工逐笔或自动批量追补孤立数据，将终端用户通过通讯线路切换到备份系统，恢复业务运行优点 : 设备投资较少，节省通信费用，通信环境要求不高缺点 : 恢复时间较长，一般要数天至1周，数据完整性与一致性较差 2. 温备份 : 将备份系

2024-03-08 16:56:53 494

原创熟练掌握Linux操作命令

cal命令用于显示指定月份或年份的日历，可以带两个参数，其中，年，月份用数字表示；语法是at后面跟着希望命令运行的日期和时间，然后命令提示符变为at> ,这样就可以输入在上面指定的时间运行的命令。history命令用于显示用户最近执行的命令，用户家目录中的.bash_history文件记录的是前一次登录，执行过的任务。echo命令用于在终端输出字符串或变量提取后的值，格式为："echo [字符串] | $变量"reboot命令表示重启。last命令用于查看所有系统的登录信息，格式为"last[参数]"

2024-03-08 16:53:52 1502 1

原创 spark的特点，与MapReduce的区别

使用Scala语言进行实现，它是一种面向对象、函数式编程语言，能够像操作本地集合一样轻松的操作分布式数据集。Spark具有运行速度快、易用性好、通用性强和随处运行等特点。

2024-03-08 16:44:50 585 1

原创 MapReduce的特点及运行架构

MapReduce是一个分布式运算程序的编程框架，是用户开发“基于Hadoop的数据分析应用”的核心框架。MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序，并发运行在一个Hadoop集群上。

2024-03-08 16:41:46 412 1

原创 Hadoop生态圈

被编号的日志数据称为此日志数据块在队列中的偏移量（offest），偏移量越大的数据块越新，即越靠近当前时间。在Flink中，对于批处理有DataSet，对于流式我们有DataStreams，但是是同一个公用的引擎之上两个独立的抽象，并且Spark是伪流处理，而Flink是真流处理。Spark是一种基于内存的分布式并行计算框架，不同于MapReduce的是——Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。

2024-03-08 16:31:30 1457 1

原创云上大数据

现实中大量的数据是无效或者低价值的，大数据最大的价值在于通过从大量不相关的各种类型的数据中，挖掘出对未来趋势与模式预测分析有价值的数据。比如，某宝电商平台每天产生的大量交易数据（大数据），通过一些算法可以分析出具有某些特征的人喜欢什么类型的商品，然后根据客户的特征，给其推荐TA喜欢的商品。结构化数据按照固定格式和规则组织，具有明确的数据类型和格式，而非结构化数据没有固定的格式和规则，也没有明确的数据类型和格式。例如，一篇文章中的文本就是非结构化数据，因为它没有固定的格式和规则，也没有明确的数据类型和格式。

2024-03-08 13:06:04 1636 1

2202_75638893的博客