Hadoop
文章平均质量分 62
chengqiuming
这个作者很懒,什么都没留下…
展开
-
商品订单频繁项集Toplogy实现
一 代码实现package com.hust.grid.leesf.ordertest.bolt;import java.util.HashMap;import java.util.Map;import com.hust.grid.leesf.ordertest.common.ConfKeys;import com.hust.grid.leesf.ordertest.common...原创 2019-09-30 19:25:41 · 191 阅读 · 0 评论 -
Hadoop性能调优选择合适的硬件
一 hadoop运行环境二 如何选择合适的硬件1 主节点的可靠性要好于从节点2 多路多核、高频率CPU、大内存3 根据数据量确定集群规模4 不让网络I/O成为瓶颈三 总结四 参考http://www.jikexueyuan.com/course/2365.html原创 2017-12-22 20:16:56 · 1193 阅读 · 0 评论 -
安装 YARN 前的准备
一 需要的软件CentOS7Hadoop 2.7.4JDK1.7OpenSSH二 JDK参考JDK安装三 OpenSSH[root@localhost ~]# ssh-keygen -t dsaGenerating public/private dsa key pair.Enter file in which to save the key原创 2017-12-13 22:11:14 · 633 阅读 · 0 评论 -
Hadoop体系结构
一 HDFS二 HDFS结构图三 Hadoop 1的结构图四 Hadoop 1和Hadoop 2的对比图五 Hadoop 2的特点原创 2017-11-25 22:00:54 · 776 阅读 · 0 评论 -
YARN 安装简介(未博客)
一 Hadoop的安装简介Hadoop的各个组件均采用xml文件进行配置,这些配置文件都在etc/hadoop子目录中core-site.xml文件用于配置通用属性。hdfs-site.xml文件用于配置HDFS属性。mapred-site.xml文件用于配置MapReduce属性。yarn-site.xml文件用于配置YARN属性。二 Hadoop的三种运行模式原创 2017-12-13 20:16:58 · 307 阅读 · 0 评论 -
MapReduce Tool 接口
一 关于Tool 接口的MapReduce编码1 自定义序列化类package com.cakin.hadoop.mr;import java.io.DataInput;import java.io.DataOutput;import java.io.IOException;import org.apache.hadoop.io.WritableComparable;public原创 2017-12-21 22:19:14 · 1238 阅读 · 0 评论 -
Hadoop 自定义序列化编程
一 自定义序列化需求二 MapReduce代码编写1 自定义序列化类package com.cakin.hadoop.mr;import java.io.DataInput;import java.io.DataOutput;import java.io.IOException;import org.apache.hadoop.io.WritableComparab原创 2017-12-20 21:56:53 · 354 阅读 · 0 评论 -
Hadoop 序列化
一 MapReduce流程二 Hadoop序列化1 序列化基本概念2 Hadoop序列化特点3 Hadoop序列化作用4 关于Writable接口5 关于Writable接口代码6 常用Writable实现类7 Java基本类型和Writable实现类对应关系三 序列化需求分析原创 2017-12-20 19:23:36 · 313 阅读 · 0 评论 -
Yarn产生的历史背景
一 什么是Hadoop二 Hadoop中的主要项目三 参考书籍《Hadoop Yarn权威指南》四 Hadoop演进的四大阶段五 阶段0:Ad Hoc集群时代六 阶段1:Hadoop on Demand七 Hadoop on Demand的架构八 HOD的特点和优势原创 2017-12-11 21:47:05 · 1098 阅读 · 0 评论 -
Hadoop RPC实战
本篇介绍Hadoop RPC一个客户端对服务端的远程调用一 创建maven项目hadoop二 配置pom.xml<project xmlns="http://maven.apache.org/POM/4.0.0"; xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"; xsi:schemaLocation="http://ma原创 2017-12-19 22:10:33 · 390 阅读 · 0 评论 -
基于内容的推荐算法
一 算法思想给用户推荐和他们之前喜欢的物品在内容上相似的其他物品。二 物品特征建模Item Profile科幻 言情 喜剧 动作 纪实 国产 欧美 日韩 斯嘉丽约翰逊 成龙 范冰冰1 表示电影具有某特征,0 表示电影不具有某特征建模举例:三 算法步骤1 构建Item Profile矩阵2 构建Item User评分矩阵3 Item原创 2017-12-02 07:55:28 · 2344 阅读 · 1 评论 -
基于用户的推荐算法
本篇介绍基于用户的协同过滤推荐算法(UserCF)一 算法思想给用户推荐和他兴趣相似的其他用户喜欢的物品。二 实例1、用户行为与权重1 点击——1.0分2 搜索——3.0分3 收藏——5.0分4 付款——10.0分2、现有如下用户、商品、行为、权重3、用户行为列表4、算法步骤4.1 根据用户行为列表计算物品、用户的评分矩阵原创 2017-12-02 07:48:17 · 4906 阅读 · 1 评论 -
Hadoop调优之操作系统调优与JVM 调优
一 操作系统调优1 避免使用swap分区2 调整内容分配策略3 修改net.core.somaxconn参数4 增大同时打开文件描述符的上限5 选择合适的文件系统,并禁用文件的访问时间6 关闭THP二 JVM调优1 简介2 调优对比图原创 2017-12-22 20:59:16 · 1809 阅读 · 0 评论 -
Hadoop 参数调优
一 HDFS调优 二 YARN调优1 Container简介下面左图为Hadoop1,右图为Hadoop22 内存优化相关参数3 CPU优化相关参数三 MapReduce调优1 MapReduce调优三原则2 增大作业并行程度3 给每个任务足够的资源相关调优参数4 尽可能地给shuffle预留资源相关调优参原创 2017-12-22 21:44:23 · 486 阅读 · 0 评论 -
Hadoop视频大汇总
一 慕课网1.Hadoop大数据平台架构与实践--基础篇(已学习)链接:https://www.imooc.com/learn/3912.Hadoop进阶(已学习)链接:https://www.imooc.com/learn/890二 极客学院1.Hadoop 概述(已学习)链接:http://www.jikexueyuan.com/course/677.html2.Hadoop 架构介绍(已学习...原创 2017-12-22 22:42:24 · 3628 阅读 · 0 评论 -
Hadoop2.7.4 全分布式模式环境搭建
一 集群规划主机名 IP 安装的软件 运行的进程master 192.168.0.110 jdk1.8、hadoop2.7.4 NameNode、resourcemanagerslave1原创 2017-12-30 12:40:03 · 420 阅读 · 0 评论 -
MapReduce基准测试
一 基准测试简介1 测试对于验证系统的正确性、分析系统的性能来说非常重要,能对系统有更全面的了解、能找到系统的瓶颈所在、能对系统性能做更好的改进。2 Hadoop自带了几个基准测试,被打包在几个jar包中,如hadoop-test.jar和hadoop-examples.jar,在Hadoop环境中可以很方便地运行测试。3、测试基准主要放在:hadoop-mapreduce-clien原创 2017-12-17 21:45:47 · 1302 阅读 · 0 评论 -
运行 MapReduce 样例
一 hadoop样例代码1 样例程序路径/opt/hadoop-2.7.4/share/hadoop/mapreduce2 样例程序包hadoop-mapreduce-examples-2.7.4.jar包含着数个可以直接运行的样例程序3 如何查看样例程序./bin/yarn jar /opt/hadoop-2.7.4/share/hadoop/mapreduce/hado原创 2017-12-17 17:14:49 · 5614 阅读 · 0 评论 -
Windows MapReduce 开发环境搭建以及运行实战
一 插件配置1 将插件hadoop-eclipse-plugin-2.7.3.jar放入到D:\Program\eclipse-mars\eclipse\plugins目录下。2 重启eclipse,会发现Prefernces中多一个Hadoop Map/Reduce插件。3 在windows下安装Hadoop 下载https://mirrors.cnnic.cn/apache/h原创 2017-12-17 13:35:47 · 3933 阅读 · 0 评论 -
Hadoop2.7.4上搭建Hbase全分布式集群
一 Hadoop集群规划主机名 IP 安装的软件 master 192.168.0.110 jdk1.8、hadoop2.7.4 slave1 192.168.0.111原创 2017-12-30 18:41:14 · 561 阅读 · 0 评论 -
MapReduce WordCount 编码实战
一 下载eclipse和JDKeclipse-jee-mars-2-win32-x86_64.zipjdk-7u51-windows-x64.exe工作目录建立在如下目录F:\Hadoop\workspace二 创建maven项目mapreduce三 编辑pom.xml进入http://www.mvnrepository.com/网站,寻找依赖1 搜原创 2017-12-16 22:03:51 · 444 阅读 · 0 评论 -
YARN伪分布式安装
一 修改core-site.xmletc/hadoop/core-site.xmlfs.defaultFS配置NameNode的URI[root@master hadoop]# cat core-site.xml fs.defaultFS hdfs://localhost:9000 二 修改hdfs-site.xmletc/hadoo原创 2017-12-15 21:45:47 · 458 阅读 · 0 评论 -
MapReduce 概述
一 MapReduce概述二 MapReduce流程分析三 MapReduce词频统计原理四 参考http://www.jikexueyuan.com/course/2686.html原创 2017-12-15 22:26:26 · 900 阅读 · 0 评论 -
MapReduce从分片输出到Map
一 输入文件输入文件是保存在datanode的块中,结构图如下二 分片输入三 理想的输入文件四 节点Map任务的个数文件1被分成3个分片,文件2被分为1个分片五 节点Map任务的个数原创 2017-11-27 21:57:36 · 733 阅读 · 0 评论 -
Hadoop视频教程汇总
一 慕课网1.Hadoop大数据平台架构与实践--基础篇(已学习)链接:https://www.imooc.com/learn/3912.Hadoop进阶(已学习)链接:https://www.imooc.com/learn/890二 极客学院1.Hadoop 概述链接:http://www.jikexueyuan.com/course/677.html2.原创 2017-12-07 22:08:28 · 1814 阅读 · 0 评论 -
基于物品的推荐算法
本篇介绍基于物理的协同过滤推荐算法(ItemCF)一 用户行为与权重1 点击——1.0分2 搜索——3.0分3 收藏——5.0分4 付款——10.0分二 算法思想给用户推荐那些和他们之前喜欢的物品相似的物品。三 举例1、现有如下用户、商品、行为、权重2 、建模3、算法步骤3.1 根据用户行为列表计算用户、物品的评分矩阵原创 2017-12-02 07:37:08 · 2795 阅读 · 1 评论 -
推荐算法之余弦相似度
一 二维向量的余弦相似度二 多维向量的余弦相似度三 相似度种类原创 2017-12-01 20:15:30 · 4506 阅读 · 0 评论 -
hadoop大数据概述
一 Hadoop的应用领域 二 Hadoop学习意义 三 goole大数据技术MapReduce、BigTable、GFS革命性的变化1:成本降低、能用PC机,就不用大型机和高端存储革命性地变化2:软件容错硬件故障视为常态,通过软件保证可靠性革命性地变化3:简化并行分布式计算,无须控制节点同步和数据交换但是,Google只发表了相关的技术论文,没原创 2017-11-22 12:29:56 · 306 阅读 · 0 评论 -
Hadoop的功能与优势
一 Hadoop是什么 二 Hadoop组成包括两个核心组件HDFS:分布式文件系统,存储海量的数据。MapReduce:并行处理框架,实现任务分解和调度。 三 Hadoop可以用来做什么搭建大型数据仓库,PB级数据的存储、处理、分析、统计等业务 四 Hadoop的优势1、高扩展2、低成本3、成熟的生态圈 五 Ha原创 2017-11-22 12:29:47 · 15551 阅读 · 0 评论 -
大数据简介
一 大数据四大特征1、数据量巨大2、数据类型繁多3、价值密度低4、要求处理速度快二 MapReduce流程 大小: 142.9 KB 查看图片附件原创 2017-11-22 11:22:17 · 292 阅读 · 0 评论 -
MapReduce之WordCount单词计数(下)
一 代码Wordcount.javaimport java.io.IOException;import java.util.StringTokenizer;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.IntWr原创 2017-11-22 12:36:44 · 273 阅读 · 0 评论 -
Hadoop1.2.1全分布式模式配置
一 集群规划主机名 IP 安装的软件 运行的进程master 192.168.0.110 jdk1.8、hadoop1.2.1 NameNode、JobTracker、SecondaryNameNodes原创 2017-12-10 16:24:48 · 399 阅读 · 0 评论 -
Hadoop 的三种运行模式以及伪分布式模式配置
一 三种模式1 单机模式2 伪分布式模式3 完全分布式模式二 单机模式特点默认模式不对配置文件进行修改使用本地文件系统Hadoop的守护进程未启动用于对MapReduce程序的逻辑进行调试三 伪分布式模式在一台主机模拟多台主机每个守护进程都以Java进程的形式运行在单机模式之上增加了代码调试功能,允许检查内存使用情况,HDFS输入原创 2017-12-10 10:00:27 · 1818 阅读 · 1 评论 -
MapReduce 的体系结构
一 MapReduce体系结构特点1 分布式编程架构2 以数据为中心,更看重吞吐率3 分而治之4 Map将一个任务分解成多个子任务5 Reduce将分解后多个子任务分别处理,并将结果汇总为最终结果二 相关举例1 清点图书馆藏书2 统计单词出现次数3 混合辣椒酱的生成过程三 MapReduce体系结构四 基本概念1 作业(J原创 2017-12-09 20:03:15 · 6285 阅读 · 0 评论 -
HDFS体系结构
一 设计目标1 自动快速检测应对硬件错误。2 流式访问数据3 转移计算比移动数据更划算4 简单一致性模型5 异构平台的可移植性二 HDFS体系结构图三 基本概念1 机架2 数据块3 元数据:镜像文件(Fsimage)+日志文件(Editlog)4 用户数据四 主从节点的通信五 写数据流程六原创 2017-12-09 19:22:22 · 367 阅读 · 0 评论 -
创建本地Hadoop集群
一 Hadoop需要的环境支持1、操作系统的支持LinuxWindows ——Cygwin ——hadoop-for-windows2、JDK的支持下载地址:http://www.oracle.com/technetwork/java/javase/downloads/index.html安装完成后,再配置环境变量,最后查询版本[root@local原创 2017-12-08 21:52:40 · 245 阅读 · 0 评论 -
Hadoop历史
Hadoop之父Doug CuttingApache Lucene1、全球第一个开源的全文搜索引擎工具包2、完整的查询引擎和索引引擎3、部分文本分析引擎4、开发人员可以在此基础上建立起完整的全文检索引擎Nutch1、开源的基于Lucene的网页搜索引擎2、加入了网页抓取、解析等功能3、类似于Google等商业搜索引擎Google的两篇原创 2017-12-08 20:26:56 · 468 阅读 · 0 评论 -
Hadoop的分布式缓存
一 背景在执行MapReduce时,可能Mapper之间需要共享一些信息,如果信息量不大,可以将其从HDFS加载到内存中,这就是Hadoop分布式缓存机制。二 分布式缓存的简单应用例如,统计一个文本的单词在另外一个全量文本中是否存在,如果存在统计单词的数量,下面是Map阶段,将全量文本加载到分布式缓存中。三 如何使用DistributedCathe第1步:在原创 2017-11-29 20:41:07 · 1602 阅读 · 0 评论 -
Hadoop生态系统及版本
一 Hadoop的生态系统 二关于HIVE 三 关于HBASE 四 关于zookeeper 五 关于Hadoop的版本 我们选择ver1.2,因为 大小: 344.3 KB原创 2017-11-22 12:32:20 · 366 阅读 · 0 评论 -
Hadoop安装
一 Hadoop的安装步骤第一步:准备Linux环境第二步:安装JDK第三步:配置Hadoop 二 准备Linux环境方法一:在window上安装虚拟机,然后在虚拟机上安装Linux方法二:租用云主机、阿里云、UnitedStack等 三 安装JDK和设置环境变量[root@localhost yum.repos.d]# yum install -y jav原创 2017-11-22 12:32:48 · 311 阅读 · 0 评论