#贺灿-CSDN博客

原创 Hive实操报告

1.使用 root 用户，将 Hive 安装包 /opt/software/apache-hive-2.0.0-bin.tar.gz 路解压到/usr/local/src 路径下。将/usr/local/src/hive/conf 文件夹下 hive-default.xml.template 文件，更名为 hive-site.xml。6.MySQL 数据库安装后的默认密码保存在/var/log/mysqld.log 文件中，在该文件中以 password 关键字搜索默认密码。

2024-04-09 14:24:10 682

原创 Spark.第三周

1. 配永久ipNAME=ens33ONBOOT=yes2.配临时IP3.yum仓库[local]name=rhel7enabled=1gpdcheck=0。

2024-03-17 20:09:30 355

原创 Spark.第二周

一旦发生灾难，需安装配置所需的运行环境，用数据备份介质(磁带或光盘) 恢复应用数据，手工逐笔或自动批量追补孤立数据，将终端用户通过通讯线路切换到备份系统，恢复业务运行。(1)运行速度快，如果数据由磁盘读取，速度是hadoop mapreduce的10倍以上，如果数据从内存读取，速度是hadoop mapreduce的100倍以上。mapreduce中的计算结果保存在磁盘上，而spark支持DAG图的分布式并行计算的编程框架，减少了迭代过程中数据的落地，提高了处理效率。(2)spark容错性高。

2024-03-12 19:38:00 856

原创初学Hadoop大数据

2.多样性：大数据数据来源多样化，可以来自各方面，包含传统结构化数据、半结构化数据、非结构数据等，结构化数据指具有完整性、确定性等的典型的数据表，半结构化数据则指日志类等具有不定性的记录，非结构化数据则指图片、视频等文本信息。此外，结构化数据可以方便地进行处理和分析，而非结构化数据则需要进行特殊的处理和分析。*HBase：一个建立在HDFS之上，面向列的针对性结构化数据的可伸缩、高可靠、高性能、分布式的动态数据库，保存的数据可以使用Mapreducer来处理，将数据存储和并行计算完美的结合在一起；

2024-03-04 17:51:37 855 2

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 Hive实操报告

原创 Spark.第三周

原创 Spark.第二周

原创 初学Hadoop大数据

空空如也

空空如也

原创初学Hadoop大数据