- 博客(13)
- 资源 (17)
- 收藏
- 关注
原创 大数据 (008)Hadoop-MapReduce 运行环境之 yarn环境搭建
一、进入hadoop配置文件目录,编辑yarn配置文件 vi /home/hadoop-2.5.1/etc/hadoop/yarn-site.xml二、将上述文件标签内容改为下方所示 yarn.nodemanager.aux-services mapreduce_shuffle yarn.resourcemanager.ha.enabled
2017-07-30 19:41:15 540
原创 大数据(007)Hadoop-MapReduce
一、MApReduce概念 MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。概念"Map(映射)"和"Reduce(归约)",是它们的主要思想,都是从函数式编程语言里借来的,还有从矢量编程语言里借来的特性。它极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。 当前的软件实现是指定一个Map(映射)函数,用来把一组键值
2017-07-30 15:22:02 559
原创 大数据 (006)Hadoop-HDFS Federation
一、HDFS Federation 通过多个namenode/namespace把元数据的存储和管理分散到多个节点中,使到namenode/namespace可以通过增加机器来进行水平扩展。 能把单个namenode的负载分散到多个节点中,在HDFS数据规模较大的时候不会也降低HDFS的性能。可以通过多个namespace来隔离不同类型的应用,把不同类型应用的H
2017-07-30 14:46:30 369
原创 大数据 (005)Hadoop-HDFS zookeeper和Hadoop-HDFS的集成
一、干掉masters文件 进入hadoop安装目录:/home/hadoop-2.5.1中的/etc/hadoop目录。删除masters文件 【因为引入keepalived之后,我们没有使用secondnamenode,因此不再需要masters文件】二、删除之前非HA的hadoop所有服务器上的数据文件 /home/hadoop-2.5三、编辑
2017-07-29 20:35:42 1318
原创 大数据(004)Hadoop-HDFS zookeeper的安装
zookeeper安装一、将zookeeper-3.4.6.tar.gz拷贝至linux的home目录中,使用 tar -zxvf 命令将其解压缩二、解压缩后,进入如下目录/home/zookeeper-3.4.6/conf,在此目录下新建zoo.cfg文件,编辑如下配置后保存退出。tickTime=2000dataDir=/home/zookeeperclientPor
2017-07-29 17:15:47 799
原创 大数据 (003)Hadoop-HDFS namenode的HA --- zookeeper的引出
后Namenode两大功能:1、接收客户端读写服务2、存放元数据(元数据包括fsimage和edits,其中fsimage是namenode格式化时候产生的;edits是运行中实时产生、修改的)问题一:上图中NN Active和NN Standby是两个Namenode,其中NN Active为活动的Namenode,NN Standby是备份。但是两个Nameno
2017-07-27 21:15:19 658
原创 大数据(002)Hadoop安装环境搭建【安装Hadoop】
Hadoop (二)Hadoop安装环境搭建(1)一、选择Primary Namenode和Secondary Namenode Primary Namenode和Secondary Namenode关系如下图所示:图1.1 SNN(Secondary Namenode)合并流程 由上图可知,Secondary Namenod
2017-07-21 01:29:59 604
原创 大数据 (001)Hadoop安装前准备【服务器准备、linux免密登录、linux登录慢的解决】
Hadoop安装前准备【服务器准备、linux免密登录、linux登录慢的解决】一、安装在同一个局域网内的四个虚拟机,我这里四个虚拟机ip分别为192.168.1.201 ~ 192.168.1.204。如下图二、选取第一个linux(192.168.1.201)作为启动服务器,给其配置免密码登录。步骤如下:1、在启动服务器上(192.168.1.201)上生成秘钥
2017-07-20 22:37:48 1306
原创 全文检索技术 solr(003)solr安装、启动
1、将solr.war复制到tomcat的webapps目录下,启动tomcat2、关闭tomcat,删除掉tomcat的webapps目录下的solr.war3、在任意位置新建一个文件夹,并将下图文件复制进文件夹中4、打开tomcat中webapps目录下solr\WEB-INF\web.xml文件将其中被注释掉的代码段放开,并根据你刚刚建立的文件路径进行修改,如下
2017-07-16 20:55:32 354
原创 全文检索技术 lucene(002) 自己动手写一个搜索引擎
项目点击下载。项目源码说明【文件文件说明】1、www.bjsxt.com为模拟爬虫趴下来的某网站2、lucene为项目【部署步骤】1、自己新建两个文件夹data和index,其中data放www.bjsxt.com , index放置索引2、将lucene导入自己的intellig idea3、将 项目中indexDir和dataDir改为你的路径4
2017-07-16 19:55:44 739 3
原创 全文检索技术 lucene(001) 一个简单的Demo
第一次接触全文检索,那就先来实现一个简单的demo一、准备文本源和索引区 要使用lucene进行全文检索,有以下几个步骤:1、针对文本源建立索引2、根据索引查询关键词。 因此我们需要一个文本源和索引区。其中文本源是搜索的目标、索引区是lucene针对搜索目标所建立的索引区域。在此,我将我的文本源和索引区目录分别定义为:E:/study/data、E:/stu
2017-07-15 21:42:59 645
转载 写给大数据开发初学者的话 | 附教程
原文链接:http://bigdata.evget.com/post/407.html导读:第一章:初识Hadoop第二章:更高效的WordCount第三章:把别处的数据搞到Hadoop上第四章:把Hadoop上的数据搞到别处去第五章:快一点吧,我的SQL第六章:一夫多妻制第七章:越来越多的分析任务第八章:我的数据要实时第九章:我的数据要对外第十章:牛逼高大上的机器学习经常有初
2017-07-04 16:26:52 500
原创 集群技术(008)nginx1.8 -- nginx+lvs(ip欺骗)实现上下行分离
一、前言: 现实中,我们使用nginx作为负载均衡,所有上行数据也要经过nginx传送至客户端。那么就存在nginx负载过大的问题。理想状态下,我们希望nginx只接受客户端传来的下行数据,上行数据的传输交给实际分流的各个服务器去完成。但这明显违反了三次握手协议,因此,我们使用lvs实现ip欺骗以达到目的。如下图所示。二、lvs概念三、
2017-07-03 22:42:43 1464
大数据系统学习笔记-0002 - Hadoop集群搭建 - 资源包
2022-06-26
flink-1.10.1-bin-scala_2.12.tgz.zip
2020-09-14
scala-SDK-4.2.0-vfinal-2.11-win32.win32.x86_64.zip
2019-12-23
scala工具包.zip
2019-12-23
elasticsearch_license&marvel-agent.zip
2019-11-14
Hadoop (十五)Hadoop-MR编程 -- 【使用hadoop计算网页之间的PageRank值----编程】
2017-08-15
Hadoop (十)Hadoop-第一次使用eclipse&java&hadoop分析简单数据
2017-08-03
SSH整合示例项目 hibernate5.2.3+struts2.5.2+spring4.3.3.zip
2016-10-18
SSH项目整合示例【OpenSessionInView】所用到的jar包
2016-10-10
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人