Hadoop
文章平均质量分 62
桂小林
专注于大数据与人工智能!
做一个“姿势正确,有深度,有维度”的人。。。
展开
-
解决MapReduce编程过程中的 java.io.FileNotFoundException 问题
在运行WordCount程序的过程中出现了如下错误:DEBUG - LocalFetcher 1 going to fetch: attempt_local938878567_0001_m_000000_0 WARN - job_local938878567_0001java.lang.Exception: org.apache.hadoop.mapreduce.task.reduce.Shuf原创 2017-09-14 17:50:56 · 2808 阅读 · 3 评论 -
服务器相关概念
1、热插拔(hot-plugging或Hot Swap)即带电插拔,热插拔功能就是允许用户在不关闭系统,不切断电源的情况下取出和更换损坏的硬盘、电源或板卡等部件,从而提高了系统对灾难的及时恢复能力、扩展性和灵活性等,例如一些面向高端应用的磁盘镜像系统都可以提供磁盘的热插拔功能。具体用学术的说法就是:热替换(Hot replacement)、热添加(hot expansion)和热升级(hot up原创 2017-09-23 22:27:31 · 2198 阅读 · 0 评论 -
开放数据资源收集
国内1.开放数据中国2.北京市政务数据资源网3.上海市政府数据服务网4.国家统计局5.无锡市政府6.数说南海7.香港特区政府8.中国高校大数据桃战赛9.阿里天池大数据平台10.上海SODA大赛11.数据堂12.AI Challenger数据集,9月5号可下载国际1.斯坦福收集的大量数据2.网页点击数据集3.Quora上关于数据集的问题和回答4.WebDataCommons世界上最大的网页元数据库5.原创 2017-09-18 16:01:11 · 715 阅读 · 0 评论 -
hadoop错误解决
诡异错误:java.lang.Exception: java.io.IOException: Type mismatch in key from map: expected org.apache.hadoop.io.Text, received org.apache.hadoop.io.LongWritable提示是说map函数接收参数与期望的参数不一致,出现这种问题一般是两种原因引起:Mappe原创 2017-10-17 21:36:51 · 340 阅读 · 0 评论 -
Windows环境下采用eclipse连接虚拟机中的Hadoop伪分布式集群
目的及意义学会搭建伪分布式集群环境,以便于理解MapReduce及HDFS;采用eclipse与伪分布式集群连接有利于分布式程序的调试;现在网络上的文章多是介绍如何搭建伪分布式集群或者是仅介绍在eclipse中如何连接已建立好的伪分布式集群,且大部分介绍都是基于hadoop1.x系列。软件列表 序号 软件名称 功能 1 hadoop-2.6.0-x64.tar.gz 实原创 2017-09-06 06:35:41 · 11191 阅读 · 0 评论 -
换一个角度来看Hadoop集群
在学过了Hadoop之后,Hadoop集群中的思想理念似乎也在生活中随处可见。下面举一个例子类比Hadoop集群中牵涉到的关键概念,以便更深入地理解Hadoop。以一软件开发团队为例,团队中有领队(Leader)及其各成员(Members)。NameNode:对应团队中的Leader,负责团队各方面工作的协调及工作分配;DataNode:对应团队中Member,负责具体的工作任务,如:编码(ta原创 2017-10-01 18:06:52 · 244 阅读 · 0 评论 -
例题详解MapReduce过程
1、概述MapReduce程序主要可分为三部分,即:mapper、reducer、driver(即main函数提交作业部分),根据需求不同可以设置partitioner、combinner以及cleanup部分。后三部分作用分别描述如下:mapper:实现从输入文件中以(key,value)的形式获取想要提取的数据;reducer:实现将mapper的输出结果汇总、归并;driver:负责作业原创 2017-10-14 16:23:23 · 2727 阅读 · 1 评论 -
SecureCRT+Vmware+CentOS7配置远程操控Linux
1、 目的及意义Windows环境下操控Linux虚拟机涉及鼠标的来回切换,不太方便。采用SecureCRT访问虚拟机相当于在同一个OS中可以做两个OS中的工作,且不涉及鼠标的来回切换,能提升效率。2、电脑配置建议配置: 内存 > 2G; > 4G 最佳 CPU > 1GHz; > 双核佳 操作系统: windows 7,8,10...原创 2017-09-02 11:12:58 · 4909 阅读 · 2 评论 -
基于决策树的网页分类(Python+Spark实现)
1、网页分类问题网页分类是一个经典的问题,例如:雅虎网站早期就是通过人工对网站进行分类以便于其他用户查找资料。网页分类的角度有多种,如:a、按网页类型(新闻、财经、体育、科技……);b、按网页内容:暂时性的(ephemeral):文章只是在某一段时间内对读者有意义,过了这段时间就没有意义了,如:当日股市涨跌新闻;长青的(evergreen):读者长久会对这些文章感兴趣,如:理财观念、育...原创 2018-04-15 23:30:35 · 2257 阅读 · 0 评论