大数据
wanhf11
无。
展开
-
HDFS 读写流程
这里写链接内容原创 2016-05-09 11:02:16 · 557 阅读 · 0 评论 -
Hadoop 排序
因为hadoop对数据分组后默认是按照key升序排序的,所以需要自定义排序函数将分组数据降序排序。/** * int的key按照降序排列 * * @author zhangdonghao * */public class IntKeyDescComparator extends WritableComparator { protected IntKeyDescComparato原创 2016-05-08 10:44:37 · 393 阅读 · 0 评论 -
Hadoop MapReduce入门
package org.bigdata.util;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.原创 2016-05-07 16:38:44 · 508 阅读 · 0 评论 -
Hadoop 单表多表关联
package org.bigdata.util;import java.io.IOException;import java.util.ArrayList;import java.util.List;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.h原创 2016-05-08 11:29:35 · 520 阅读 · 0 评论 -
Hive 知识
Hive•Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。 •本质是将SQL转换为MapReduce程序为什么要使用Hive•操作接口采用类SQL语法,提供快速开发的能力 •避免了去写MapReduce,减少开发人员的学习成本 •扩展功能很方便Hive与HadoopHive 与传统数据库原创 2016-04-24 08:23:45 · 253 阅读 · 0 评论 -
HDFS命令
hadoop fs -mkdir /tmp/input 在HDFS上新建文件夹 hadoop fs -put input1.txt /tmp/input 把本地文件input1.txt传到HDFS的/tmp/input目录下 hadoop fs -get input1.txt /tmp/input/input1.txt 把HDFS文件拉到本地原创 2016-04-24 16:23:29 · 317 阅读 · 0 评论 -
Apriori Hadoop MapReduce
关联规则挖掘由 Agrawal 等人于 1993 年提出 在数据库和数据挖掘领域已有深入研究的重要的数据挖掘模型. 假设所有数据是分类型的. 对于数值型数据没有好算法. 开始时用于购物篮分析, 寻找顾客购买项之间的关系.模型: 数据I = {i1, i2, …, im}: 所有项的集合。 事务 t : t 是一个项集, 且 t I。 事务数据库 T: 事务的集合 T = {t1,原创 2016-05-22 08:27:07 · 4824 阅读 · 13 评论 -
大矩阵乘法 ODPS MapReduce
假设现有矩阵A和矩阵B,矩阵C=A*B: 对于A的[i,j]元素: 对于B的[j,k]元素: 则:C[i,k]的值为: 其中C[1,1]与C[2,2]的计算互不影响,可使用分布式计算MapReduce进行分解,将所有计算需要的元素集中在同一个key上面。MatrixMultiMapReduce.javapackage fresh_comp_offline;import java.io.I原创 2016-05-04 07:01:54 · 908 阅读 · 0 评论 -
ODPS MapReduce入门 - 推荐商品
用户通过在jar命令中设置–local参数,在本地模拟MapReduce的运行过程,从而进行本地调试。本地运行时, 客户端会从ODPS中下载本地调试所需要的输入表的元信息、数据,所需要的资源以及输出表的元信息,并将这些信息保存到一个名为warehouse的本地目录中。 在程序运行结束后,会将计算结果输出到warehouse目录内的一个文件中。如果本地的warehouse目录下已经下载了输入表及被引用原创 2016-05-02 20:18:54 · 1085 阅读 · 0 评论 -
Spark updateStateByKey和mapWithState
UpdateStartByKey def updateStateByKey[S: ClassTag]( updateFunc: (Iterator[(K, Seq[V], Option[S])]) => Iterator[(K, S)], partitioner: Partitioner, rememberPartitioner: Boolean ):原创 2016-12-25 14:39:15 · 704 阅读 · 0 评论 -
Hadoop 处理小文件
问题:小文件指的是那些size比HDFS的block size(默认64M)小的多的文件。如果在HDFS中存储小文件,那么在HDFS中肯定会含有许许多多这样的小文件(不然就不会用hadoop了)。而HDFS的问题在于无法很有效的处理大量小文件。任何一个文件,目录和block,在HDFS中都会被表示为一个object存储在namenode的内存中,每一个object占用150 bytes的内存空间。原创 2016-05-07 15:55:05 · 612 阅读 · 0 评论 -
HDFS 读取文件和存储文件
文件读取的过程如下: 1. 使用HDFS提供的客户端开发库Client,向远程的Namenode发起RPC请求; 2. Namenode会视情况返回文件的部分或者全部block列表,对于每个block,Namenode都会返回有该block拷贝的DataNode地址; 3. 客户端开发库Client会选取离客户端最接近的DataNode来读取block;如果客户端本身就是DataNode原创 2016-04-20 20:04:30 · 1314 阅读 · 0 评论 -
Hadoop 架构
参考 HDFS(分布式文件系统)集群架构 HDFS+MapredReduce(云计算)集群架构 Hadoop是一个能够对大量数据进行分布式处理的软件框架,实现了Google的MapReduce编程模型和框架,能够把应用程序分割成许多的 小的工作单元,并把这些单元放到任何集群节点上执行。在MapReduce中,一个准备提交执行的应用程序称为“作业(job)”,而从一个作业划分出 得、运行于各转载 2016-04-19 09:39:22 · 2614 阅读 · 0 评论 -
Hadoop HDFS封装
HadoopCfgpackage org.bigdata.util;import org.apache.hadoop.conf.Configuration;public class HadoopCfg { public static Configuration cfg = null; public static synchronized Configuration getConfigur原创 2016-05-07 16:03:04 · 1035 阅读 · 0 评论 -
PageRank Hadoop MapReduce
links.txt链接关系A B C DB A DC CD B Crand.txt 初试概率分布向量a=0.8A a 0.25B a 0.25C a 0.25D a 0.25PageRankMapReducepackage org.bigdata.pagerank;import java.io.IOException;import java.util.HashMap;import j原创 2016-05-14 14:25:55 · 532 阅读 · 1 评论 -
PeopleRank Hadoop MapReduce
package org.bigdata.peoplerank;import java.io.IOException;import java.util.HashMap;import java.util.List;import java.util.Map;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs原创 2016-05-15 08:07:01 · 456 阅读 · 0 评论 -
Hadoop MapReduce 大矩阵乘法
package org.bigdata.util;import java.io.IOException;import java.util.ArrayList;import java.util.Collections;import java.util.Comparator;import java.util.List;import java.util.Scanner;import org.ap原创 2016-05-08 13:07:12 · 782 阅读 · 1 评论 -
Hadoop MapReduce 统计红楼梦出现次数最多的名字
package org.bigdata.util;import java.io.IOException;import java.util.ArrayList;import java.util.List;import org.ansj.domain.Term;import org.ansj.splitWord.analysis.NlpAnalysis;import org.apache.had原创 2016-05-07 19:33:44 · 1633 阅读 · 0 评论 -
K-Means Hadoop MapReduce
聚类与分类聚类(clustering)是指根据“物以类聚”的原理,将本身没有类别的样本聚集成不同的组,这样的一组数据对象的集合叫做簇,并且对每一个这样的簇进行描述的过程。 在分类( classification )中,对于目标数据库中存在哪些类是知道的,要做的就是将每一条记录分别属于哪一类标记出来。 聚类分析也称无监督学习, 因为和分类学习相比,聚类的样本没有标记,需要由聚类学习算法来自动确定。原创 2016-05-15 08:41:19 · 1428 阅读 · 0 评论 -
NativeBayes Hadoop MapReduce
贝叶斯定理在一个论域中,某个事件A发生的概率用P(A)表示,事件的条件概率P(A|B)的定义为:在事件B已经发生的前提下事件A发生的概率。其计算公式为: 分类的问题是,给定已知的一组类 Y1 , Y2 , …, Yk 以及一个未分类样本X, 判断X应该属于Y1, Y2, …, Yk 中的哪一个类。如果利用贝叶斯定理,问题也可以转换成:若X是一个样本,那么X属于这k个类中的哪一个的几率最大. 朴素原创 2016-05-15 15:50:52 · 377 阅读 · 0 评论 -
KNN Hadoop MapReduce
K Nearest Neighbor算法K Nearest Neighbor算法又叫KNN算法,这个算法是机器学习里面一个比较经典的算法, 总体来说KNN算法是相对比较容易理解的算法。其中的K表示最接近自己的K个数据样本。KNN算法和K-Means算法不同的是,K-Means算法用来聚类,用来判断哪些东西是一个比较相近的类型,而KNN算法是用来做归类的,也就是说,有一个样本空间里的样本分成很几个类型原创 2016-05-15 14:23:03 · 3934 阅读 · 3 评论 -
Yarn 资源调度策略
在Yarn中有三种调度器可以选择:FIFO Scheduler ,Capacity Scheduler,Fair Scheduler。 配置方法FIFO SchedulerFIFO Scheduler把应用按提交的顺序排成一个队列,这是一个先进先出队列,在进行资源分配的时候,先给队列中最头上的应用进行分配资源,待最头上的应用需求满足后再给下一个分配,以此类推。 FIFO Scheduler它并不转载 2016-12-28 15:09:38 · 5120 阅读 · 0 评论