- 博客(5)
- 收藏
- 关注
原创 伪分布式Hadoop+Spark+Scala的搭建
2,进入Hadoop的安装目录 找到存放data,name的目录(一般默认在Hadoop的tmp/dfs下)更改ID号使其data和name里的VERSION clusterID相同(name和data里的都要更改)大部分是由于多次启动或格式化导致DataNode和Namenode的ID号不同。更改完成后重新启动再输入jps就可以看到有Namenode及DataNode了。先查看端口,看是否被占用,如果被占直接kill - 9 端口号。输入:quit即可退出spark-shell。
2024-04-27 12:44:45 363 1
原创 Hive的搭建
!!!查询 MySQL 数据库状态。mysqld 进程状态为 active (running),则表示 MySQL 数 据库正常运行。 如果 mysqld 进程状态为 failed,则表示 MySQL 数据库启动异常。此时需要排查 /etc/my.cnf 文件。
2024-04-25 18:12:39 177 5
原创 Spark,hadoop,Linux基础命令
比如,如果字段不固定,利用关系型数据库也是比较困难的,有人会说,需要的时候加个字段就可以了,这样的方法也不是不可以,但在实际运用中每次都进行反复的表结构变更是非常痛苦的,这也容易导致后台接口从数据库取数据出错。maoreduce的shuffle的过程中相当的复杂,虽然shuffle的过程是奇迹发生的地方,但是这里边做的事太多了,很多没有法子去掉,也就是说有可能对于场景无用的操作也做了,比如排序,本身其实我们有可能不需要sort,但是基于MR的特性,它必须依靠sort,这样白白浪费了性能。
2024-03-08 14:44:58 918 2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人