大数据江湖之即席查询与分析（下篇）--手把手教你搭建即席查询与分析Demo

最新推荐文章于 2024-02-06 22:16:41 发布

muyannian

最新推荐文章于 2024-02-06 22:16:41 发布

阅读量5.6k

点赞数 1

文章标签：大数据 hadoop solr hive spark

本文链接：https://blog.csdn.net/muyannian/article/details/60466049

版权

本文提供了一步一步的指南，教你如何搭建大数据即席查询与分析的Demo，包括硬件环境准备、操作系统安装与配置、Hadoop环境搭建等关键步骤。案例基于机动车缉查布控，适合初学者快速上手体验大数据分析。

摘要由CSDN通过智能技术生成

上篇小弟分享了几个“即席查询与分析”的典型案例，引起了不少共鸣，好多小伙伴迫不及待地追问我们：说好的“手把手教你搭建即席查询与分析Demo”啥时候能出？说到就得做到，差啥不能差人品，本篇只分享技术干货，目的只有一个，就是让每一个伙伴都能根据本篇向导搭建出一个“即席查询与分析Demo”。

为了让各位伙伴能够尽快上手体验，所选案例就以上一篇中的“机动车缉查布控即席查询与分析”为例，上篇我们已经比较详尽的分析了用户需求，没好好听课的小伙伴赶紧把“大数据即席查询与分析（中篇）”再好好复习一下，这里不再赘述。需要特别强调是，为了尽量降低大家搭建Demo的门槛，主要是为了让大家充分了解到Demo搭建的过程；另外，请大家务必按照如下步骤严格执行，任何一个参数的问题都可能引起后续的问题。

一、原材料准备

硬件环境：大数据环境搭建，强烈建议使用物理机

如果实在没有条件，每个虚拟机配置不要低于4核，32G，否则严重影响效果。

本次Demo采用如下配置服务器3台

硬件配置项	详细信息
机器型号	IBM 3650 M3（某宝上2000大洋搞定）
CPU	2C*6核
内存	DDR3 64GB
数据盘	SAS盘 300G 6块裸盘挂载
Raid 配置	RAID 0
网卡	千兆网卡
交换机	TPLINK千兆普通交换机

软件环境：不必到处找了，下载地址：http://url.cn/42R4CG8

软件配置项	详细信息
操作系统	CentOS 6.6
hadoop版本	HDP 2.5
延云ydb版本	YDB 1.1.6

测试用例：

测试数据	详细信息
数据条数	1亿条
原始文本数据大小	5G

二、操作系统安装与配置

推荐安装Centos 6.5或6.6的操作系统（不要使用centos7哦），选择安装英文语言环境，安装桌面版（不要安装最简版）。

1. 配置机器名及hosts域名解析

规划三台机器为ydbmaster，ydbslave01， ydbslave02

在每台机器上按照相应名字修改：

hostname ydbmaster

vi /etc/sysconfig/network

vi /etc/hosts

切记hosts文件中不要将localhost给注释掉，并且配置完毕后，执行下 hostname -f 看下是否能识别出域名

2. 在每台机器上修改Ulimit配置

操作系统默认只能打开1024个文件，打开的文件超过这个数发现程序会有“too many open files”的错误，1024对于大数据系统来说显然是不够的，如果不设置，基本上整个大数据系统是“不可用的”，根本不能用于生产环境。

配置方法如下：

echo "* soft nofile 128000" >>/etc/security/limits.conf

echo "* hard nofile 128000" >>/etc/security/limits.conf

echo "* soft nproc 128000" >>/etc/security/limits.conf

echo "* hard nproc 128000" >>/etc/security/limits.conf

cat / etc /security/limits.conf

sed -i 's/1024/unlimited/'/etc/security/limits.d/90-nproc.conf

cat /etc/security/limits.d/90-nproc.conf

ulimit -SHn 128000

ulimit -SHu 128000

3. 在每台机器上一定要禁用Swap

在10~20年前一台服务器的内存非常有限，64m~128m，所以通过Swap可以将磁盘的一部分空间用于内存。但是现今我们的服务器内存普遍达到了64G以上，内存已经不再那么稀缺，但是内存的读取速度与磁盘的读取相差倍数太大，如果我们某段程序使用的内存映射到了磁盘上，将会对程序的性能造成非常严重的影响，甚至导致整个服务的瘫痪。

禁用方法如下，让操作系统尽量不使用swap：

echo "vm.swappiness=1" >>/etc/sysctl.conf

sysctl -p

sysctl -a|grep swappiness

4. 在每台机器上修改网络配置优化

echo " net.core.somaxconn = 32768 " >>/etc/sysctl.conf

sysctl –p

sysctl -a|grep somaxconn

5. 在每台机器上配置SSH无密码登录

安装 Hadoop与Ambari均需要无密码登录

设置方法请参考如下命令：

ssh-keygen