hadoop
DataPulse-辉常努腻
码出未来 let's coding!
展开
-
HADOOP MapReduce 处理 Spark 抽取的 Hive 数据【解决方案一】
今天咱先说问题,经过几天测试题的练习,我们有从某题库中找到了新题型,并且成功把我们干趴下,昨天今天就干了一件事,站起来。沙问题?java mapeduce 清洗 hive 中的数据 ,清晰之后将driver代码 进行截图提交。 spark之前抽取的数据是.parquet格式的, 对 mapreduce 不太友好,我决定从新抽取, 还是用spark技术,换一种文件格式 使用新方法进行sink的时候我是直接like别的现成表结构折磨干的,后来hive分割字段都TM乱套啦,赞看看!1.使用scala+sp原创 2022-06-21 17:26:03 · 772 阅读 · 0 评论 -
数据库写入中文乱码问题 编码latin1解决方法
数据库设置alter database shtd_store character set utf8;连接设置jdbc:mysql://master:3306/shtd_store?useSSL=false&characterEncoding=utf-8原创 2022-05-10 10:28:06 · 705 阅读 · 0 评论 -
Hadoop HA集群 NameNode 无法自动故障转移(切换active)
在学习 HA 自动化配置,按照hadoop官网:https://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-hdfs/HDFSHighAvailabilityWithQJM.html 配置,最后所有的节点都启动正常。用 kill -9 进程号 杀死了当前处于active状态的NameNode后,其他的 Standby 状态的NameNode 并没有自动切换为 Active状态,而且重启杀死的 NameNode 后,可能出现所有NameN转载 2022-05-07 20:38:03 · 889 阅读 · 4 评论 -
机器学习 spark.mllib 数据类型学习
机器学习 spark.mllib 数据类型学习package datatypeimport org.apache.spark.ml.linalg.Vectorsobject Demo1 { def main(args: Array[String]): Unit = { /** * 局部变量 * * 单词 * * dense: 稠密 * sparse: 稀疏 * * indices: index ar原创 2022-04-20 10:20:32 · 1270 阅读 · 0 评论 -
sqoop to hive GC overhead limit exceeded 大表抽取到hive中发生异常
如果你已经试过了别的博客提供的修改内存的方法,但是美效果的话,不妨看看我的解决办法。为什么Sqoop Import抛出这个异常?22/04/08 16:22:35 INFO mapreduce.Job: Task Id : attempt_1649398255409_0017_m_000000_0, Status : FAILEDException from container-launch.Container id: container_1649398255409_0017_01_000002E原创 2022-04-08 16:55:19 · 1723 阅读 · 0 评论 -
HDFS设置BLOCK的目的
HDFS设置BLOCK的目的在HDFS里面,data node上的块大小默认是64MB(或者是128MB或256MB)问题: 为什么64MB(或128MB或256MB)是最优选择?为什么不能远少于64MB(或128MB或256MB) (普通文件系统的数据块大小一般为4KB)减少硬盘寻道时间(disk seek time)1.减少硬盘寻道时间HDFS设计前提是支持大容量的流式数据操作,所以即使是一般的数据读写操作,涉及到的数据量都是比较大的。假如数据块设置过少,那需要读取的数据块就比较多,由于数据原创 2021-12-08 08:49:33 · 277 阅读 · 2 评论 -
Hadoop 查看Fsimage和Edits文件 命令
1.oiv查看Fsimage文件hdfsoiv apply the offline fsimage viewer to an fsimageoev apply the offline edits viewer to an edits file基本语法hdfs oiv -p 文件类型 -i镜像文件 -o 转换后文件输出路径案例实操[huizai@hadoop102 current]$ pwd /opt/module/hadoop-3.1.3/dat原创 2021-12-04 20:50:09 · 1587 阅读 · 0 评论