MapReduce Hello World

import ...... /**单词计数Mapper类:**/ public class TokenizerMapper extends Mapper<LongWritable,Text,Text,IntWritable>{ //Mapp...

2018-07-31 09:34:54

阅读数 89

评论数 0

Hadoop学习系列笔记(七):关于HBase

HBase是一个在HDFS上开发的面向列的分布式数据库,适合实时地随机访问超大规模数据集。HBase自底向上进行构建,能够简单地通过增加节点来达到线性扩展。HBase不是关系型数据库,不支持SQL。概念:应用把数据存放在带标签的表中,表由行和列组合成能单元格数据的插入时间戳为数据的版本。行的键和单...

2018-07-07 21:22:23

阅读数 93

评论数 0

Hadoop学习系列笔记(六):关于Hive

Hive是构建在Hadoop上的数据仓库框架。Hive设计的目的是让精通SQL技能(但Java编程技能相对较弱)的分析师能够对Facebook存放在HDFS中的大规模数据集执行查询,是一个通用的、可伸缩的数据处理平台。Hive一般在工作站上运行,它把SQL查询转换为一系列在Hadoop集群上运行的...

2018-07-07 14:07:28

阅读数 108

评论数 0

Hadoop学习系列笔记(五):关于Pig

Pig为大型数据集的处理提供了更好层次的抽象。Pig为MapReduce提供了更丰富的数据结构,这些数据结构往往都是多值和嵌套的,Pig还提供了一套更强大的数据变换操作。Pig包括两部分:(1)用于描述数据流的语言,Pig Latin。(2)用于运行Pig Latin程序的执行环境。当前有两个环境...

2018-07-06 15:09:43

阅读数 142

评论数 0

Hadoop学习系列笔记(四):MapReduce应用开发与MapReduce的工作机制

MapReduce应用开发MapReduce编程流程:首先写map函数和reduce函数,使用单元测试确保函数的运行符合预期,然后写一个驱动程序来运行作业(可在本地IDE中用一个小数据集进行测试),最后将通过测试的程序放到集群上运行。资源文件:configuration.xml、core-defa...

2018-07-05 22:12:11

阅读数 551

评论数 0

Hadoop学习系列笔记(三):Hadoop的I/O操作

1、HDFS的数据完整性:Hadoop会对写入的所有数据计算校验和,并在读取数据时验证校验和。datanode负责在收到数据后存储该数据及其验证校验和。客户端从datanode读取数据时,也会验证校验和,将它们与datanode中存储的校验和进行比较。Datanode也会在后台线程中运行一个Dat...

2018-07-05 09:42:14

阅读数 176

评论数 0

Hadoop学习系列笔记(二):Hadoop分布式文件系统

1、HDFS的设计:当数据集大小超过一台独立的物理计算机存储能力时,就要对它进行分区并存储到若干台单独的计算机上。管理网络中跨多台计算机存储的文件系统成为分布式文件系统,该系统架构于网络之上。Hadoop有一个称为HDFS的分布式系统。实际上Hadoop是一个综合性的文件系统抽象,也可以集成其他文...

2018-07-04 21:49:07

阅读数 89

评论数 0

Hadoop学习系列笔记(一):Hadoop概述及MapReduce程序工作原理

Hadoop系列学习笔记基于《Hadoop权威指南》点击下载Hadoop提供了用于构建分布式系统工具(数据存储、数据分析、协调处理),是一个大数据存储和分析平台。面对大数据,人们所要做的就是数据的存储与分析工作。Hadoop提供了一个具有可靠的共享存储(HDFS)和分析系统(MapReduce)平...

2018-07-04 10:16:50

阅读数 207

评论数 0

Python-Matplotlib画图常用参数设置

作图需要,对于新手来说,网络信息多而不精,现将本人这一段作图需要的参数设置记录一下,作为注释说明。结合实现两幅子图共享x轴分析说明:font = FontProperties(fname=r"/usr/share/fonts/truetype/arphic/ukai.ttc&am...

2018-06-05 22:25:43

阅读数 5074

评论数 1

ML神器:sklearn的快速使用

学习,转自:https://www.cnblogs.com/lianyingteng/p/7811126.html传统的机器学习任务从开始到建模的一般流程是:获取数据 -> 数据预处理 -> 训练建模 -> 模型评估 -&a...

2018-05-25 21:19:16

阅读数 161

评论数 0

windows10上使用Eclipse配置Hadoop开发环境详细步骤+WordCount示例

说明:Hadoop集群已经搭建完毕,集群上使用的Hadoop-2.5.0。 目的:在window10系统上利用Eclipse配置Hadoop开发环境,编写MapReduce关联Hadoop集群。 准备:JDK环境变量配置、Eclipse、hadoop-2.7.5.tar、hadoop-ecli...

2018-01-18 16:00:44

阅读数 6181

评论数 0

利用Sqoop把Oracle数据迁移到HDFS、Hive

提示:以下操作是在Xshell终端进行的,导入数据后若在Xshell终端上查看导入的数据,数据中的中文会出现乱码。要在Linux系统(最好是在可视化的Linux系统端)中去查看数据不会出现乱码。本人刚开始一直都是在Xshell上进行数据的导入、查看测试,花了一天时间解决“乱码”情况都没解决,最后才...

2018-01-17 15:33:07

阅读数 11994

评论数 2

Sqoop将Oracle数据导入HDFS时出现权限问题: Permission denied: user=root, access=WRITE,

利用Sqoop将Oracle数据导入HDFS时出现权限问题。 执行列表操作能正常列出数据库中的表: sqoop list-tables --connect jdbc:oracle:thin:@IP地址:端口号:数据库 --username 用户名 --password 密码  但是执行i...

2018-01-13 17:15:01

阅读数 1140

评论数 0

KNN算法 代码详细解释

K-近邻算法采用测量不同特征值之间的距离方法进行分类。适用数据范围:数值型和标称型。 工作原理:存在一个样本数据集(训练样本集),且样本集中每个数据都存在标签,即知道样本集中每一个数据与所属分类的对应关系。输入没有标签的新数据后,将新数据每个特征与样本集中数据对应的特征进行比较,然后提取样本集中...

2017-07-28 16:40:47

阅读数 773

评论数 0

Python的模块引用和查找路径

模块间相互独立相互引用是任何一种编程语言的基础能力,运行Python应用或引用Python模块,Python解释器要有一个查找的过程。

2017-07-17 15:16:05

阅读数 247

评论数 0

oracle 利用数据泵导入导出数据

目的:使用利用数据泵,将一台电脑上的数据库导出,导入到另一台电脑上的数据库。 A电脑上的操作。expdp 数据导出 1、运行cmd; 2、登录数据库,输入命令:sqlplus system/密码; 3、创建目录路径:create directory backup_path as "E:...

2016-11-30 09:26:49

阅读数 7998

评论数 0

OWB创建工作区时ORA-00904:无效标识符 ORA-01919角色不存在等错误解决办法

之前一直用的是服务器上的OWB工作区,想在自己电脑上创建一个工作区,创建自己的用户,以免修改内容对服务器上的数据造成影响。捣鼓了两天,各种问题,各种查,解决了一个问题又来了一个,虐心。昨天晚上解决了一个问题,今天早上来继续捣鼓,又出现了一个问题ORA-00904:OWBSYS.WB_WORKSPA...

2016-11-20 10:47:11

阅读数 478

评论数 0

使用Oracle创建数据库,SQL developer连接数据库简要步骤

SQL Developer 不能用于创建Oracle数据库,只能用来连接已经创建的数据库,数据库的建立要通过Database Configuration Assistant(DBCA)来完成。     找到开始菜单中Oracle-OraDb11g_home1下的DBCA,打开,可依次点击“下一步”...

2016-11-09 22:05:48

阅读数 20630

评论数 0

深度好文丨读完此文,就知道Hadoop了!

“昔我十年前,与君始相识。”   一瞬间Hadoop也到了要初中择校的年龄了。   十年前还没有Hadoop,几年前国内IT圈里还不知道什么是Hadoop,而现在几乎所有大型企业的IT系统中有已经有了Hadoop的集群在运行了各式各样的任务。   2006年项目成立的一开始,“H...

2016-10-25 20:57:21

阅读数 656

评论数 0

Java—隐藏封装、继承

封装是面向对象三大特征之一(另外两个是继承和多态),指的是将对象的状态信息隐藏在对象内部,不允许外部程序直接访问对象内部信息,而是通过类所提供的方法实现对内部信息的操作和访问。 封装,两个方面的含义:把该隐藏(属性)的隐藏起来,把该暴漏(方法)的暴漏出来。这两个方面是通过Java提供的访问控制符来...

2015-01-12 11:43:56

阅读数 780

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭