Thomas__li-CSDN博客

原创协同过滤算法（下）

接《上》一、MR步骤：第一个MR 就是把输入数据的每个用户的信息整合下：userid:1,vector:{103:2.5,102:3.0,101:5.0} userid:2,vector:{104:2.0,103:5.0,102:2.5,101:2.0} userid:3,vector:{107:5.0,105:4.5,104:4.0,101:2.5} useri

2018-02-01 15:16:59 343

原创协同过滤算法（上）

算法原理：协同推荐算法，作为众多推荐算法中的一种已经被广泛的应用。其主要分为2种，第一种就是基于用户的协同过滤，第二种就是基于物品的协同过滤。所谓的itemBase推荐算法简单直白的描述就是：用户A喜欢物品X1，用户B喜欢物品X2，如果X1和X2相似则，将A之前喜欢过的物品推荐给B，或者B之前喜欢过的物品推荐给A。这种算法是完全依赖于用户的历史喜欢物品的；所谓的UserBase推荐算法

2018-02-01 15:15:10 452

原创 MapReduce高级->Combiner-Partitioner-Shuffle-分组

一、Combiner1、为什么需要Combiner？Combiner是为了解决网络带宽严重被占降低程序效率和单一节点承载过重降低程序性能这两个问题而产生的；①与mapper和reducer不同的是，combiner没有默认的实现，需要显式的设置在conf中才有作用。②并不是所有的job都适用combiner，只有操作满足结合律的才可设置combiner。combine操作类似于

2018-01-29 08:53:30 539

原创 MapReduce的概念及其工作流程

一、MapReduce是什么？ Hadoop MapReduce是一个软件框架，基于该框架能够容易的编写应用程序，这些应用程序能够运行在由上千个商用机器组成的大集群上，并以一种可靠地，具有容错能了的方式并行的处理上TB级别的海量数据集。二、MapReduce的特点？1.软件框架2.并行处理3.可靠且容错4.大规模集群5.海量数据集三、MapReduce做什么？

2018-01-27 19:05:07 1325

原创 Hadoop的IO操作--校验和-文件结构-数据类型-压缩

一、数据完整性用户希望储存和处理数据的时候，不会有任何损失或者损坏。Hadoop提供两种校验：校验和、运行后台程序来检测数据块1、校验和（常用循环冗余校验CRC-32）①写入数据节点验证 --Hdfs会对写入的所有数据计算校验和，并在读取数据时验证校验和。 --元数据节点负责在验证收到的数据后，储存数据及其校验和。在收到客户端数据或复制其他datanode的

2018-01-27 08:40:53 599

原创 HDFS文件操作工具类

package hdfs;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.*;import org.apache.hadoop.io.IOUtils;import java.io.IOException;import java.net.URI;/**

2018-01-26 17:25:11 517

转载 Hadoop常用命令

hadoop常用命令实例1、查看指定目录下内容：hadoop fs –ls [文件目录][root@cdh01 tmp]# hadoop fs -ls -h /tmpFound 2 itemsdrwxrwxrwx - hdfs supergroup 0 2016-01-21 10:24 /tmp/.cloudera_health_monitoring_ca

2018-01-25 10:33:08 191

原创 Hadoop概念

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。一、HDFS（Hadoop Distributed File System） Hadoop是一个以一种可靠、高效、可伸缩的方式进行处理的，能够对大量数据进行分布式处理的系统框架。所以可以理解为hadoop是一个框架，HDFS是hadoop

2018-01-24 19:43:22 505

原创 Hadoop集群安装部署

安装步骤：1.操作系统与实验硬件准备2.配置集群的ssh3.配置Hadoop集群4.启动Hadoop服务一、操作系统与实验硬件准备在虚拟机上准备两个机子，一个作为master一个作为slave1按用前面（Hadoop单机安装）完成安装jdk，hadoop和配置环境等1、设置两台机子的hostname 执行命令$sudo vim /etc/hostname

2018-01-24 17:15:40 278

原创 CAP、BASE、数据分割、副本控制概念

一、CAP原理（CAPTheorem）一致性（Consistency）、可用性（Availability）、分区容忍性（Partition tolerance） CAP原理指的是，这三个要素最多只能同时实现两点，不可能三者兼顾。因此在进行分布式架构设计时，必须做出取舍。而对于分布式数据系统，分区容忍性是基本要求，否则就失去了价值。因此设计分布式数据系统，就是

2018-01-23 19:38:19 398

原创 Hadoop单机安装部署

一、准备工作： 1、下载安装JDK 在线安装：执行命令$sudo apt-get install jdk 离线安装：下载jdk-7u75-linux-x64.tar.gz，下载路径:http://www.oracle.com/technetwork/java/javase/downloads/jdk7-downloads-1880260.html把离线包拷入到ubuntu

2018-01-23 18:35:29 597

原创服务器

一、nfs服务关闭防火墙：#setenforce 01、服务器端：①修改/etc/exports文件，添加 /public 192.168.193.141 (rw,all_squash,no_subtree_check,anonuid=505,anongid=505)表示客户端主机192.168.193.141可以共享NFS服务器中的/public目录，权限为读写，并且服务器将所

2018-01-22 18:06:45 434

原创 shell脚本

单引号和反斜杠都是不允许变量替换，按字面意思处理；双引号允许使用$符对变量进行替换当一个命令被包含在一堆括号里并在括号前加上$符号，或者被包含在反引号`中时，shell把他替换为这个命令的输出结果。这个过程被称为命令替换。当一个命令被包含在一对括号里并在括号前加上$符号，如$(command)，或者被包含在反引号“`” （如`command`)中的时候，shell把它替换为

2018-01-22 18:00:25 403

转载大数据概念

1、大数据是什么？有什么特点？大数据是指“无法用现有的软件工具提取、存储、搜索、共享、分和处理的海量的、复杂的数据集合。”业界通常用4个V（即Volume（体积大）、Variety（类型多）、Value（价值）、Velocity（速度快））来概括大数据的特征。2、数据仓库Datawarehouse？使用主题存放Bill Inmon 认为数据仓库就是面向主题的（Subjec

2018-01-22 17:10:26 491

Thomas__li的博客