2017年07月_张--小涛涛

12月 11月 10月 09月 08月 07月 06月 01月

原创大数据（008）Hadoop-MapReduce 运行环境之 yarn环境搭建

一、进入hadoop配置文件目录，编辑yarn配置文件 vi /home/hadoop-2.5.1/etc/hadoop/yarn-site.xml二、将上述文件标签内容改为下方所示 yarn.nodemanager.aux-services mapreduce_shuffle yarn.resourcemanager.ha.enabled

2017-07-30 19:41:15 540

原创大数据（007）Hadoop-MapReduce

一、MApReduce概念 MapReduce是一种编程模型，用于大规模数据集（大于1TB）的并行运算。概念"Map（映射）"和"Reduce（归约）"，是它们的主要思想，都是从函数式编程语言里借来的，还有从矢量编程语言里借来的特性。它极大地方便了编程人员在不会分布式并行编程的情况下，将自己的程序运行在分布式系统上。当前的软件实现是指定一个Map（映射）函数，用来把一组键值

2017-07-30 15:22:02 559

原创大数据（006）Hadoop-HDFS Federation

一、HDFS Federation 通过多个namenode/namespace把元数据的存储和管理分散到多个节点中，使到namenode/namespace可以通过增加机器来进行水平扩展。能把单个namenode的负载分散到多个节点中，在HDFS数据规模较大的时候不会也降低HDFS的性能。可以通过多个namespace来隔离不同类型的应用，把不同类型应用的H

2017-07-30 14:46:30 369

原创大数据（005）Hadoop-HDFS zookeeper和Hadoop-HDFS的集成

一、干掉masters文件进入hadoop安装目录：/home/hadoop-2.5.1中的/etc/hadoop目录。删除masters文件【因为引入keepalived之后，我们没有使用secondnamenode，因此不再需要masters文件】二、删除之前非HA的hadoop所有服务器上的数据文件 /home/hadoop-2.5三、编辑

2017-07-29 20:35:42 1318

原创大数据（004）Hadoop-HDFS zookeeper的安装

zookeeper安装一、将zookeeper-3.4.6.tar.gz拷贝至linux的home目录中，使用 tar -zxvf 命令将其解压缩二、解压缩后，进入如下目录/home/zookeeper-3.4.6/conf，在此目录下新建zoo.cfg文件，编辑如下配置后保存退出。tickTime=2000dataDir=/home/zookeeperclientPor

2017-07-29 17:15:47 799

原创大数据（003）Hadoop-HDFS namenode的HA --- zookeeper的引出

后Namenode两大功能：1、接收客户端读写服务2、存放元数据（元数据包括fsimage和edits，其中fsimage是namenode格式化时候产生的；edits是运行中实时产生、修改的）问题一：上图中NN Active和NN Standby是两个Namenode，其中NN Active为活动的Namenode，NN Standby是备份。但是两个Nameno

2017-07-27 21:15:19 658

原创大数据（002）Hadoop安装环境搭建【安装Hadoop】

Hadoop （二）Hadoop安装环境搭建（1）一、选择Primary Namenode和Secondary Namenode Primary Namenode和Secondary Namenode关系如下图所示：图1.1 SNN（Secondary Namenode）合并流程由上图可知，Secondary Namenod

2017-07-21 01:29:59 604

原创大数据（001）Hadoop安装前准备【服务器准备、linux免密登录、linux登录慢的解决】

Hadoop安装前准备【服务器准备、linux免密登录、linux登录慢的解决】一、安装在同一个局域网内的四个虚拟机，我这里四个虚拟机ip分别为192.168.1.201 ~ 192.168.1.204。如下图二、选取第一个linux（192.168.1.201）作为启动服务器，给其配置免密码登录。步骤如下：1、在启动服务器上（192.168.1.201）上生成秘钥

2017-07-20 22:37:48 1306

原创全文检索技术 solr（003）solr安装、启动

1、将solr.war复制到tomcat的webapps目录下，启动tomcat2、关闭tomcat，删除掉tomcat的webapps目录下的solr.war3、在任意位置新建一个文件夹，并将下图文件复制进文件夹中4、打开tomcat中webapps目录下solr\WEB-INF\web.xml文件将其中被注释掉的代码段放开，并根据你刚刚建立的文件路径进行修改，如下

2017-07-16 20:55:32 354

原创全文检索技术 lucene（002）自己动手写一个搜索引擎

项目点击下载。项目源码说明【文件文件说明】1、www.bjsxt.com为模拟爬虫趴下来的某网站2、lucene为项目【部署步骤】1、自己新建两个文件夹data和index，其中data放www.bjsxt.com ， index放置索引2、将lucene导入自己的intellig idea3、将项目中indexDir和dataDir改为你的路径4

2017-07-16 19:55:44 739 3

原创全文检索技术 lucene（001）一个简单的Demo

第一次接触全文检索，那就先来实现一个简单的demo一、准备文本源和索引区要使用lucene进行全文检索，有以下几个步骤：1、针对文本源建立索引2、根据索引查询关键词。因此我们需要一个文本源和索引区。其中文本源是搜索的目标、索引区是lucene针对搜索目标所建立的索引区域。在此，我将我的文本源和索引区目录分别定义为：E:/study/data、E:/stu

2017-07-15 21:42:59 645

转载写给大数据开发初学者的话 | 附教程

原文链接：http://bigdata.evget.com/post/407.html导读：第一章：初识Hadoop第二章：更高效的WordCount第三章：把别处的数据搞到Hadoop上第四章：把Hadoop上的数据搞到别处去第五章：快一点吧，我的SQL第六章：一夫多妻制第七章：越来越多的分析任务第八章：我的数据要实时第九章：我的数据要对外第十章：牛逼高大上的机器学习经常有初

2017-07-04 16:26:52 500

原创集群技术（008）nginx1.8 -- nginx+lvs(ip欺骗)实现上下行分离

一、前言：现实中，我们使用nginx作为负载均衡，所有上行数据也要经过nginx传送至客户端。那么就存在nginx负载过大的问题。理想状态下，我们希望nginx只接受客户端传来的下行数据，上行数据的传输交给实际分流的各个服务器去完成。但这明显违反了三次握手协议，因此，我们使用lvs实现ip欺骗以达到目的。如下图所示。二、lvs概念三、

2017-07-03 22:42:43 1464