大数据平台及应用
文章平均质量分 65
Hadoop从零开始实践
独钓一江月227
这个作者很懒,什么都没留下…
展开
-
Type mismatch in key from map: expected org.apache.hadoop.io.Text, received org.apache.hadoop.io.Lon
这个报错是说Reduce要求输入的键是Text类型(由reduce方法参数指定),但是接收到的却是LongWritable类型。没有发现问题,再到创建job的run方法里面去看,也没找到问题。上网搜,可以在run方法里面主动设置输出的键和值的类型,上传到hadoop集群启动,还是报相同的错误,再检查代码发现原因是没有设置mapper类,设置了两次jar包的主类。说明作业提交之后,由于没有map类,切分后的数据直接交给reduce来处理,导致报了这个错。重新设置 一下即可。原创 2024-06-22 10:50:41 · 135 阅读 · 1 评论 -
Hadoop简单应用程序实例
Hadoop是一个分布式系统基础架构,主要用于大数据的存储和处理。它允许使用简单的编程模型跨集群处理和生成大数据集。Hadoop主要由HDFS(Hadoop Distributed FileSystem,分布式文件系统)和MapReduce编程模型两部分组成。原创 2024-06-20 08:41:52 · 1098 阅读 · 0 评论 -
Hadopp应用
Python必须要修改C:\Windows\System32\drivers\etc\hosts文件(要管理员权限才能修改),添加节点的ip和名称。1. 在IntelliJ IDEA或Eclipse环境中创建一个Maven项目,并使用HDFS的Java API操作HDFS。(2) 编辑pom.xml文件,引用必要的Hadoop和HDFS组件,注意Hadoop中的JDK版本与Windows中的版本保持一致。(3) 使用Java API编写代码并调试,将Windows中的一个文件上传至HDFS指定目录。原创 2024-06-16 22:09:26 · 388 阅读 · 0 评论 -
hadoop服务器启动后无法执行hdfs dfs命令
再使用vi编辑器查看(也可以用less或者more命令查看),往上翻到第一个java的报错,发现是img文件坏掉了导致namenode启动不了。然后删除掉hadoop文件下面的tmp文件和dfs文件(子目录也要删干净)。然后重新建dfs和tmp文件,dfs文件下有两个子目录。使用jps查看进程,发现namenode没有启动,然后再进入到Hadoop的相应目录,打开里面的logs文件。可能的原因:namenode死掉的原因可能是关虚拟机时没有stop-all.sh,而是直接把虚拟机关了,导致img出了问题。原创 2024-06-16 19:24:55 · 447 阅读 · 0 评论 -
hadoop应用1
新建maven项目。原创 2024-06-12 15:44:36 · 183 阅读 · 0 评论 -
Hadoop环境配置(一主二从)
使用远程连接工具(这里用的Putty)连接主机,ip地址就是虚拟机的IP地址,端口号为22,即提供ssh服务的端口号。删除node1和2的Hadooptools,从master上面重新复制(看最前面的主机名是哪个节点的操作)在hadoop目录下创建相应存放文件数据存放的文件夹,tmp、dfs、dfs/data、dfs/name。修改节点的ip地址,将IPPADDR修改为前面设置的(这里设置的是192.168.98.139)修改workers,删掉默认的localhost,换成自己的节点。原创 2024-05-25 17:02:25 · 864 阅读 · 0 评论