Hadoop
King-Long
天赋决定上限 努力决定下限;
格局决定结局 态度决定高度;
展开
-
Hadoop安装教程 单机和伪分布式 Centos6.8 Hadoop2.8.0
总述大数据的核心一是大数据文件存储,二是大数据运算MapReduce。大数据学习的基础是Linux基础命令,VI文本编辑器使用,关系型数据库基础知识,此外,还需要掌握Java基础知识,尤其是泛型等;本文将带领大家学习当前最新版本大数据Hadoop2.8.0的单机安装和伪分布式安装及验证,希望对想学大数据的人有所帮助。前提条件:安装好Centos Linux,笔者使用的是阿里原创 2017-06-19 22:32:39 · 596 阅读 · 0 评论 -
大数据晋级之路(8)Scala,Spark分布式安装
环境准备 三台Centos或虚拟机环境 Hadoop全分布式已安装主要使用HDFS环境。Hadoop完全分布式安装 Scala安装Scala安装Scala下载进入到目标目录/hadoop,下载scala rpm安装包并安装cd /hadoop/wget https://downloads.lightbend.com/scala/2.12.7/scala-2.1...原创 2018-11-22 14:53:10 · 592 阅读 · 0 评论 -
典型推荐算法总结
推荐算法具有非常多的应用场景和商业价值,因此对推荐算法值得好好研究。推荐算法种类很多,但是目前应用最广泛的应该是协同过滤类别的推荐算法,本文就对协同过滤类别的推荐算法做一个概括总结,后续也会对一些典型的协同过滤推荐算法做原理总结。1. 推荐算法概述 推荐算法是非常古老的,在机器学习还没有兴起的时候就有需求和应用了。概括来说,可以分为以下5种: 1)基于内容的推荐:这一类一般...转载 2018-11-23 21:05:42 · 44121 阅读 · 1 评论 -
今日头条推荐算法原理全文详解
本次分享将主要介绍今日头条推荐系统概览以及内容分析、用户标签、评估分析,内容安全等原理。一、系统概览推荐系统,如果用形式化的方式去描述实际上是拟合一个用户对内容满意度的函数,这个函数需要输入三个维度的变量。第一个维度是内容。头条现在已经是一个综合内容平台,图文、视频、UGC小视频、问答、微头条,每种内容有很多自己的特征,需要考虑怎样提取不同内容类型的特征做好推荐。第二个维度是用...转载 2018-11-23 20:57:42 · 1580 阅读 · 0 评论 -
大数据晋级之路(7)Storm安装及使用
一、Apache Storm简介Apache Storm简介Storm是一个分布式的,可靠的,容错的数据流处理系统。Storm集群的输入流由一个被称作spout的组件管理,spout把数据传递给bolt, bolt要么把数据保存到某种存储器,要么把数据传递给其它的bolt。一个Storm集群就是在一连串的bolt之间转换spout传过来的数据。Storm组件在Storm集群中...原创 2018-11-21 17:10:14 · 461 阅读 · 0 评论 -
修改HBase或者Spark默认的8080端口
我们知道8080端口是很多web应用的默认端口,如果一台机器上两个服务都用8080就会引起冲突,同时8080也容易被黑客攻击的端口。因此我们希望可以修改hbase或者spark的默认web ui访问的8080端口。修改HBase Web UI默认的8080端口修改HBASE_HOME下的conf目录之下的hbase-site.xml文件添加hbase.rest.port属性标签,然后重启...原创 2018-11-21 15:10:45 · 3688 阅读 · 0 评论 -
大数据晋级之路(5)Hadoop,Spark,Storm综合比较
大数据框架:Spark vs Hadoop vs Storm目录Hadoop Spark Storm 大数据时代,TB级甚至PB级数据已经超过单机尺度的数据处理,分布式处理系统应运而生。知识预热「专治不明觉厉」之“大数据”; 大数据生态圈及其技术栈;关于大数据的四大特征(4V)海量的数据规模(Volume):Quantifiable(可量化) 高速的数据流转...转载 2018-11-21 14:38:49 · 533 阅读 · 0 评论 -
Zookeeper集群启动错误
错误提示ERROR [main:QuorumPeerMain@88] - Invalid config, exiting abnormally[root@slave2 bin]# ./zkServer.sh statusZooKeeper JMX enabled by defaultUsing config: /hadoop/zookeeper-3.4.13/bin/../conf/zo...原创 2018-11-14 19:08:47 · 2501 阅读 · 0 评论 -
大数据晋级之路(4)Hadoop生态系统体系架构及基本概念
基本概念机架:HDFS集群,由分布在多个机架上的大量DataNode组成,不同机架之间节点通过交换机通信,HDFS通过机架感知策略,使NameNode能够确定每个DataNode所属的机架ID,使用副本存放策略,来改进数据的可靠性、可用性和网络带宽的利用率。数据块(block):HDFS最基本的存储单元,默认为64M,用户可以自行设置大小。元数据:指HDFS文件系统中,文件和目录的属性信息。...原创 2018-11-08 18:34:25 · 720 阅读 · 0 评论 -
大数据晋级之路(3)Hadoop环境MapReduce程序验证及hdfs常用命令
MapReduce验证本地创建一个test.txt文件vim test.txt输入一些英文句子如下:Beijing is the capital of ChinaI love BeijingI love China上传test.txt到hdfs系统的 ouput目录hdfs dfs -mkdir /userhdfs dfs -mkdir /user/inputhdf...原创 2018-11-08 17:01:32 · 984 阅读 · 0 评论 -
大数据晋级之路(2)修改Hadoop集群日志目录,数据存放目录
Hadoop有时会有unhealthy Node不健康的非Active节点存产生,具体错误内容如下。错误内容-== log-dirs usable space is below configured utilization percentage/no more usable space [ /hadoop/hadoop-2.9.0/logs/userlogs : used space abov...原创 2018-11-08 14:57:34 · 3442 阅读 · 0 评论 -
hadoop启动主机名解析错误解决
一、Hadoop启动报错问题:1.hadoop启动时datanode报错Shutting down DataNode at java.net.UnknownHostException: master1.hadoop: master1.hadoop: 未知的名称或服务2.java.net.UnknownHostException: localhost.localdomain: localho...原创 2018-11-05 20:21:08 · 5917 阅读 · 0 评论 -
Centos Linux添加环境变量到PATH的方法
在 Linux CentOS 系统上安装完 Hadoop 后,为了使用方便,需要将 Hadoop 命令加到系统命令中,如果在没有添加到环境变量之前,执行“hadoop fs”命令时,则会提示命令不存在的错误,如下所示:[root@localhost13 logs]# hadoop fs -mkdir /temp-bash: hadoop: 未找到命令方法一export PATH=$PAT...原创 2018-11-02 19:37:35 · 7037 阅读 · 4 评论 -
大数据晋级之路(1)Centos7上搭建全分布式Hadoop集群
本文介绍搭建一个Namenode两个DataNode的Hadoop全分布式集群的全部步骤及方法。具体环境如下:环境准备3个Centos7虚拟机或者3个在一个局域网内的实际Centos7机器,机器上已安装JDK1.8,至于不会安装Centos7或者JDK1.8的同学可以自行网上百度教程,不为此文重点;关闭禁用防火墙,主要是方便hadoop集群内部相互之间可以顺利访问,方便于web端通过...原创 2018-11-06 18:04:10 · 1877 阅读 · 0 评论 -
Zookeeper查看器ZooInspector
下载地址下载ZooInspectorhttps://download.csdn.net/download/u011095110/10790185解压缩使用方法已安装JRE/JDK必须已经安装java运行环境可以运行jar文件进入命令行模式进入build/zookeeper-dev-ZooInspector.jar所在的目录java jar zookeeper-dev-ZooI...原创 2018-11-17 10:28:09 · 1563 阅读 · 0 评论