![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hadoop
文章平均质量分 70
IT独白者
这个作者很懒,什么都没留下…
展开
-
基于hadoop下的mahout推荐系统实现
mahout是一个推荐系统的apache下的框架,而hadoop是一个分布式的框架。基于《mahout in action》一书中的第六章介绍了关于分布式的hadoop实现,首先先介绍关于mahout下的基于共现矩阵的物品相似度的算法实现。概要这篇文章主要论述我在实现上一篇文章所述功能时的具体操作过程。因为Hadoop现在有两套新旧API接口,因此在实现过程中需要十分注意你转载 2017-03-02 11:08:02 · 10026 阅读 · 2 评论 -
从mysql中将数据表复制给hbase
与将mysql的数据表复制给hive/hdfs类似,我们只需要增加以下个别参数用于支持对hbase中的列族的支持即可。可以用如下语句实现:sqoop import --connect jdbc:mysql://localhost:3306/sqooptest --username hive --password hive --table sqoop --hbase-table studen原创 2017-07-24 15:54:05 · 373 阅读 · 0 评论 -
Sqoop1.4.6使用数据导入导出
sqoop是一款用于结合关系型数据库和hdfs(hive/hbase)的数据库之间数据相互传递的工具,可以将mysql/oracle等数据库中存在的表格通过sqoop来传递给hive或着是hbase,同样也可以将hive或者是hbase中的表格传递给sqoop中,非常好用。目前主要有两种版本的sqoop,分别是sqoop-1.4.*和sqoop-1.99.*。其中sqoop-1.4.*代表的是原创 2017-07-24 11:31:14 · 1360 阅读 · 0 评论 -
Hbase数据库的一些基础知识
Hbase是一种NoSql数据库,与传统的RDBMS(关系型数据库)有着本质的区别。一、NoSqlNoSql的字面意思是Not Only SQL,泛指用来解决大数据相关问题而创建的数据库技术,目前在市场上常用的有Mongo DB,阿里巴巴开源的OceanBase等,当然也包括本文所介绍的HBase。虽然NoSql数据库是面向大数据而应运而生的,但是也并非说在大数据时代,传统的关系型数据库就原创 2017-07-19 22:48:36 · 515 阅读 · 0 评论 -
HBase的复制函数CopyToTable
在日常的生产环境中,通常需要将一张已有的hbase表格直接复制给在hbase中的另一张表格,那么可以通过命令行直接调用CopyToTable来实现。首先在hbase中有一张表,如下:hbase(main):018:0> scan 'table1'ROW COLUMN+CELL转载 2017-07-23 21:37:20 · 571 阅读 · 0 评论 -
HBase之java api接口调用与mapreduce整合即从hdfs中通过mapreduce来导入数据到hbase中
此篇分为两部分来探讨,第一部分是hbase的java api接口,第二部分是hbase与mapreduce整合一、hbase之java api接口hbase是基于java写的,所以当然可以调用java api一样通过java代码来操纵hbase,可以实现基本的查询hbase表,向hbase表上传某一条记录等操作。那么首先需要依赖一些基本的hbase的maven的jar包,lz是在idea的原创 2017-07-21 15:16:01 · 1741 阅读 · 0 评论 -
hive简介
hive是一种类sql语言,通过将用户输入的sql语句转化成mapreduce的job来执行,大大加快传统的sql语句在数据库中的查询。而且因为hive支持标准的sql语法,免去了用户编写mapreduce的过程,因此减少了公司开发的成本。hive只需要精通sql知识即可,而不需要特别去学习mapreduce,入门较低,而不是特别高,因此比较受欢迎。此外,hive本身就为大数据批处理而生的,hiv原创 2017-07-21 23:35:16 · 1394 阅读 · 0 评论 -
Hive和Hbase的数据整合联系
lz最近在研究hadoop家族中非常重要的两个工具:hive和hbase。这两个工具分别对应于类sql的hadoop数据查询和hadoop的database。都是基于hadoop中的hdfs。下图是一个比较典型的hadoop的数据处理流程图:w转载 2017-07-21 10:34:11 · 1414 阅读 · 0 评论 -
hadoop中的自动分区
lz在学习hadoop大数据实践,接触到可以通过继承partitioner这个类来自定义分区,将map后输出的结果按照key来划分到不同的reduce中进行汇总,也就是reduce,默认情况下只有一个partitioner分区,可以自定义来划分不同的partitioner分区,方便快捷。而且,自定义分区,必须通过hadoop jar的方式来运行,以下通过一个例子来说明如何运行这个partition原创 2017-07-15 14:31:17 · 552 阅读 · 0 评论 -
未完待续 HDFS中使用hadoop url来读取数据
一、使用hadoop url读取数据从hadoop中的hdfs分布式文件系统中来读取数据,最简单的方法是通过使用java.net.URL对象来打开一个数据流,并从中读取数据,因此,一般的调用格式如下:InputStream in = null;try{ in = new URL("hfs:///文件路径").openStream(); //注意:这里必须要有三个///,原创 2017-07-02 12:23:27 · 1457 阅读 · 1 评论 -
hadoop新版的api接口实现启动运行hadoop代码
在hadoop0.20.2版本之后,hadoop提供了一个新的api接口,用于开启hadoop代码。那么采用如下形式来实现:mapper和reducer类不再是接口而是抽象类,因此,map函数和reduce函数不再实现mapper和reducer接口了,而是继承相应的抽象类。这样更容易扩展。另外,在新版的api中,广泛使用context对象,并且用mapcontext来对mapreduce原创 2017-06-18 14:39:37 · 1212 阅读 · 0 评论 -
一些hadoop入门小demo
lz最近在研究hadoop,刚在入门阶段,对一些高深的知识点还不在行,但是我希望能够通过自己点点滴滴的学习总结,在日复一日的过程中,逐渐积累相关的学习经验,从而能够逐步成为hadoop方面、spark甚至是大数据方面的专家。那么只能先从一些小的demo开始学些,这里要介绍的一个小demo是在给定的一个文件中,求出每年的最高气温。201401011420140102162014010原创 2017-03-19 19:41:33 · 5424 阅读 · 2 评论 -
hadoop下的rpc简单实现
lz最近在学习hadoop的相关知识,其中一节是关于rpc的内容,那么首先需要了解什么是rpc?rpc即为远程过程调用协议,是一种通过网络从远程计算机程序上请求服务,而不需要了解底层网络技术的协议。rpc协议假定某些传输协议的存在,如tcp/udp,为通信程序之间携带信息数据。如osi网络模型中,rpc跨越了传输层和应用层。rpc使得开发包括网络分布式程序在内的应用程序更加简单。即为一个进程提原创 2017-03-08 20:41:44 · 576 阅读 · 0 评论 -
Hadoop - Mac OSX下配置和启动hadoop以及常见错误解决
0. 安装JDK参考网上教程在OSX下安装jdk 1. 下载及安装hadoopa) 下载地址:http://hadoop.apache.org b) 配置ssh环境在terminal里面输入: ssh localhost如果有错误提示信息,表示当前用户没有权限。这个多半是系统为安全考虑,默认设置的。更改设置如下:进入s转载 2017-02-25 10:50:31 · 2454 阅读 · 0 评论 -
IntelliJ IDEA + Maven环境编写第一个hadoop程序
1. 新建IntelliJ下的maven项目点击File->New->Project,在弹出的对话框中选择Maven,JDK选择你自己安装的版本,点击Next 2. 填写Maven的GroupId和ArtifactId你可以根据自己的项目随便填,点击Next这样就新建好了一个空的项目这里程序名填写WordCount,我们的程序是一个通用的网上的范例,转载 2017-02-25 10:46:42 · 2575 阅读 · 0 评论 -
先占坑 Pig的使用
暂时先占个坑原创 2017-07-28 12:39:42 · 304 阅读 · 0 评论