Cindy_0124-CSDN博客

原创 Hadoop安装

Hadoop的安装方式有三种，分别是单机模式，伪分布式模式，分布式模式。

2024-09-22 20:08:28 2398

注：运行Flink需要安装JAVA环境（Java 8 or 11）可以查看环境是否已安装JAVA：命令：　java -version　下载Flink安装包D ownload: https://flink.apache.org/downloads/ 将下载的安装包进行解压：$ tar -xzf flink-1.13.6-bin-scala_2.11.tgz$ cd flink-1.13.6-bin-scala_2.11$ ./bin/start-cluster.shStarting cluster.

2023-10-10 21:41:41 313 1

原创 Spark/Hive性能优化建议

不管是spark还是hive，不要相信自己的代码，一定要去看执行计划和spark的执行ui界面。踩过的坑…一开始还切过hive计算，发现mapjoin不起效果，直接hint方式没用，还需要设置最小的mapjoin数据大小的参数。同时hive中不同的是，如果mapjoin分发内存溢出，那么会有备用执行stage来代替。而spark走了broadcast hash join失败了就是内存溢出就推出了。

2023-09-17 17:15:26 425 1

原创 Spark安装及配置详细步骤

解压scala、spark： tar -zxvf scala-2.11.8.tgz tar -zxvf spark-2.4.4-bin-hadoop2.6.tgz 配置环境变量(master、slave1、slave2分别执行)： export SCALA_HOME=/usr/local/src/scala-2.11.8 export SPARK_HOME=/usr/local/src/spark-2.4.4-bin-hadoop2.6 export

2023-09-16 14:49:27 1098 1

原创 Centos7开启访问端口

参数：--zone (作用域)--add-port=80/tcp (添加端口，格式：端口/通讯协议）--permanent (永久生效，没有此参数重启后失效）

2023-08-29 21:26:23 4923 1

原创虚拟机centos7系统安装后需手动配置ip地址

centos 7 ip地址配置

2023-08-26 00:36:50 499

原创 Python连接Mysql 1044 Error

python 连接 mysql 报 1044 错误

2023-08-21 10:24:13 552 1

原创 SPARK软件栈

是一个用来实现快速而通用的。Spark扩展了广泛你爱我的MapReduce计算模型，而且高效地支持更多计算模式，包括交互式查询和流处理。Spark的一个主要特点就是能够在内存中进行计算，因而更快。即使是必须在磁盘上进行的复杂计算，Spark依然比MapReduce更加高效。Spark提供丰富的接口，除了基于Python、Java、Scala和 SQL的简单易用的API以及内建的丰富的程序库外，Spark还能和其他大数据工具密切配合使用。

2023-08-08 14:00:14 276