Big Data
文章平均质量分 81
Usher_Ou
这个作者很懒,什么都没留下…
展开
-
大数据01
1、大数据 大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。[1] 在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》[2] 中大数据指不用随机分析法(抽样调查)这样捷径,而采用所有数据进行分析处理。大数据的5V特点(IB原创 2018-01-22 21:33:16 · 516 阅读 · 0 评论 -
ItemCF 基于物品的协同过滤算法
ItemCF 基于物品的协同过滤算法1、概念 ItemCF:ItemCollaborationFilter,基于物品的协同过滤 算法核心思想:给用户推荐那些和他们之前喜欢的物品相似的物品。 比如,用户A之前买过《数据挖掘导论》,该算法会根据此行为给你推荐《机器学习》,但是ItemCF算法并不利用物品的内容属性计算物品之间的相似度,它主要通过分析用户的行为记录计算原创 2018-02-02 20:56:07 · 1130 阅读 · 0 评论 -
Hadoop HDFS原理
HDFS 架构HDFS 对外部客户机而言,HDFS就像一个传统的分级文件系统。可以创建、删除、移动或重命名文件,等等。但是 HDFS 的架构是基于一组特定的节点构建的,这是由它自身的特点决定的。这些节点包括 NameNode(仅一个),它在 HDFS 内部提供元数据服务;DataNode,它为 HDFS 提供存储块。由于仅存在一个 NameNode,因此这是 HDFS 的一个缺原创 2018-01-27 09:09:55 · 501 阅读 · 0 评论 -
HDFS文件系统操作JAVA-API
public class HDFSIO { /** * 创建文件夹 * @param path * @throws IOException */public static void mkdir(String path)throws IOException{ //读取配置文件 Configuration configuration = new Con原创 2018-01-27 09:12:35 · 321 阅读 · 0 评论 -
浅析MapReduce(二)
浅析MapReduce(二)Map -> ReduceMap阶段五大步骤 MapReduce其实是分治算法的一种实现,所谓分治算法就是“就是分而治之”,将大的问题分解为相同类型的子问题(最好具有相同的规模),对子问题进行求解,然后合并成大问题的解。MapReduce就是分治法的一种,将输入进行分片,然后交给不同的task进行处理,然后合并成最终的解。具体流程图如下:原创 2018-01-29 19:30:34 · 569 阅读 · 0 评论 -
Hbase 深入浅出
Hbase 深入浅出概述 HBase是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统(File System)所提供的分布式数据存储一样,HBase在Hadoop之上提供了类似于Bigtable的能力。HBase是Apache的Hadoo...原创 2018-02-19 17:32:59 · 640 阅读 · 0 评论