自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

小宁哥博客

关注博主个人微信公众号:bigdata_shequ,每天会更新大数据、人工智能前沿技术!

  • 博客(61)
  • 收藏
  • 关注

原创 sqoop2安装与配置

一、解压tar包二、配置服务端(server)修改:sqoop.properties# Hadoop configuration directoryorg.apache.sqoop.submission.engine.mapreduce.configuration.directory=/opt/cdh_5.3.6/hadoop-2.5.0-cdh5.3.6/etc/hadoop修改:catalin...

2018-05-13 13:13:24 574

原创 hive中sql优化解决策略

友情提示:更多有关大数据、人工智能方面技术文章请关注博主个人微信公众号:高级大数据架构师!Hive中的sql优化如果是按时间分区的表,查询时一定要使用分区限制,如果没有分区限制,会从该表的所有数据里面遍历。 注意sql中or的使用,or 这个逻辑必须单独括起来,否则可能引起无分区限制,下面举个例子,想查询到的是gd或gx的某天的数据。Select x from t where ds=...

2018-05-13 12:59:50 8510

原创 hive整体架构优化解决策略

友情提示:更多有关大数据、人工智能方面技术文章请关注博主个人微信公众号:高级大数据架构师!hive可以从几个方面进行优化,从系统角度看:整体架构、MR阶段、JOB以及平台都可以进行优化。从用户角度看:了解SQL执行过程以及业务数据特点,调整SQL语句进行优化。一 整体架构优化现在hive的整体框架如下,计算引擎不仅仅支持Map/Reduce,并且还支持Tez、Spark等。根据不同的计算引...

2018-05-13 12:54:16 610 2

原创 hive数据倾斜优化策略

友情提示:更多有关大数据、人工智能方面技术文章请关注博主个人微信公众号:高级大数据架构师!Hive数据倾斜Group By 中的计算均衡优化1.Map端部分聚合先看看下面这条SQL,由于用户的性别只有男和女两个值 (未知)。如果没有map端的部分聚合优化,map直接把groupby_key 当作reduce_key发送给reduce做聚合,就会导致计算不均衡的现...

2018-05-13 12:50:47 18901

原创 hivejob中map的优化

友情提示:更多有关大数据、人工智能方面技术文章请关注博主个人微信公众号:高级大数据架构师!1、Hive优化案例——map数过多集群运行的作业有不少map数超大的作业,占用slot过多,导致其他同池子的其他作业等待状态。由于小文件数过多会占用元数据过大,计算时也会消耗更多的资源。所以,建议文件的大小控制在不小于 100M。(文件也不是越大越好,gzip压缩文件最好控制500M以内)分区表...

2018-05-13 12:44:29 1721

转载 主流开源SQL(on Hadoop)总结

 使用SQL 引擎一词是有点随意的。例如Hive 不是一个引擎,它的框架使用MapReduce、TeZ 或者Spark 引擎去执行查询,而且它并不运行SQL,而是HiveQL,一种类似SQL 的语言,非常接近SQL。“SQL-in-Hadoop” 也不适用,虽然Hive 和Impala 主要使用Hadoop,但是Spark、Drill、HAWQ 和Presto 还可以和各种其他的数据存储系统配合使...

2018-05-13 10:06:35 3155

原创 hive集成MySQL服务

友情提示:更多有关大数据、人工智能方面技术文章请关注博主个人微信公众号:高级大数据架构师!MySQL安装请访问:https://blog.csdn.net/qq_35036995/article/details/80297000 hive配置:配置hive-site.xml 1、修改hive-site.xml 官网:https://cwiki.apache.org/con...

2018-05-13 10:00:11 515

原创 Linux系统安装MySQL数据库

安装mysql1、查看自己虚拟机有没有mysql的安装包    sudo rpm -qa | grep mysql2、卸载:sudo rpm -e --nodeps mysql-libs-5.1.66-2.el6_3.x86_643、卸载完成之后再查看一下,确保卸载完成4、安装mysql服务: sudo yum -y install mysql-server (如果yum源有问题,那就更换一下yu...

2018-05-13 09:54:34 737

原创 cdh版本的hadoop安装及配置(伪分布式模式) MapReduce配置 yarn配置

友情提示:更多有关大数据、人工智能方面技术文章请关注博主个人微信公众号:高级大数据架构师!安装hadoop需要jdk依赖,我这里是用jdk8jdk版本:jdk1.8.0_151hadoop版本:hadoop-2.5.0-cdh5.3.6hadoop下载地址:链接:https://pan.baidu.com/s/1qZNeVFm 密码:cilnjdk下载地址:链接:https:/...

2018-05-10 23:16:44 2255 1

原创 Linux系统调优权威指南

1.关闭SELINUX功能1.1 修改配置文件,使关闭SELINUX永久生效sed 's#SELINUX=enforcing#SELINUX=disables#g' /etc/selinux/config ===>重启系统生效1.2临时关闭SELINUX[root@hadoop01 xningge]# setenforceusage: setenforce [ Enforcing | Per...

2018-05-10 23:12:06 445

原创 Linux6.X图形界面如何打开终端以及如何将终端加入右键

友情提示:更多有关大数据、人工智能方面技术文章请关注博主个人微信公众号:高级大数据架构师!今天刚安装了一个centos 6.9图形界面的系统,安装完成后,鼠标右击没有打开终端的按钮,在网上查了一些资料,搞明白了,分享给大家。在左上角菜单【Applications】---》【System Tools】---》【Terminal】打开终端  将终端放在桌面上,则对【Terminal...

2018-05-10 23:11:23 2365

原创 cdh版本的sqoop安装以及配置

sqoop安装需要提前安装好sqoop依赖:hadoop 、hive、hbase、zookeeperhadoop安装步骤请访问:http://www.cnblogs.com/xningge/articles/8433297.htmlhive安装步骤请访问:http://www.cnblogs.com/xningge/p/8433792.htmlhbase安装步骤请访问:zookeeper安装步骤请...

2018-05-10 23:08:51 4134

原创 vsftpd安装和使用 Linux系统和window系统

vsftpd 安装(Linux)一、安装系统环境  centos 6.9 64位二、vsftpd版本  vsftpd-2.2.2-24.el6.x86_64三、安装步骤1.安装  执行 yum -y install vsftpd eg:  (1)是否使用sudo权限执行请根据您具体环境来决定  (2)rpm -qa |grep vsftpd 可通过这个检查是否已经安装vsftpd  (3)默认配置...

2018-05-10 23:07:41 1929

原创 cdh版本的zookeeper安装以及配置(伪分布式模式)

需要的软件包:zookeeper-3.4.5-cdh5.3.6.tar.gz   1、将软件包上传到Linux系统指定目录下: /opt/softwares/cdh2、解压到指定的目录:/opt/modules/cdh/  $ tar -zxvf /opt/softwares/zookeeper-3.4.5-cdh5.3.6.tar.gz  -C  /opt/modules/cdh/3、进入zoo...

2018-05-10 23:06:31 2657

原创 Failed with exception MetaException(message:javax.jdo.JDODataStoreException: Error(s) were found whi

友情提示:更多有关大数据、人工智能方面技术文章请关注博主个人微信公众号:高级大数据架构师!hive (db_emp)> load data local inpath '/opt/datas/emp.txt' into table emp_part partition(`date`='2018120');在加载数据到HDFS上时,报错:Failed with exception M...

2018-05-10 23:05:13 1504

原创 vsftpd配置文件详解

vsftpd配置文件详解1.默认配置:1>允许匿名用户和本地用户登陆。anonymous_enable=YESlocal_enable=YES2>匿名用户使用的登陆名为ftp或anonymous,口令为空;匿名用户不能离开匿名用户家目录/var/ftp,且只能下载不能上传。3>本地用户的登录名为本地用户名,口令为此本地用户的口令;本地用户可以在自 己家目录中进行读写操作;本地用户...

2018-05-09 10:43:38 236

原创 Spark-1.X编译构建及配置安装

前提条件(环境要求)  jdk版本:1.7+  scala版本:1.10.4+  maven版本:3.3.3+本博客中使用的软件版本  spark版本:spark-1.6.1.tar.gz(源码)    jdk版本:jdk-8u151-linux-x64.tar.gz  maven版本:apache-maven-3.3.9.tar.gz  scala版本:scala-2.10.4.tgz以上软件都...

2018-05-09 10:37:44 235

原创 cdh版本的hue安装配置部署以及集成hadoop hbase hive mysql等权威指南

hue下载地址:https://github.com/cloudera/huehue学习文档地址:http://archive.cloudera.com/cdh5/cdh/5/hue-3.7.0-cdh5.3.6/manual.html我目前使用的是hue-3.7.0-cdh5.3.6hue(HUE=Hadoop User Experience)Hue是一个开源的Apache Hadoop UI系...

2018-05-09 10:33:25 4876 3

原创 hive报错:eption(message:javax.jdo.JDODataStoreException: An exception was thrown while adding/validati

友情提示:更多有关大数据、人工智能方面技术文章请关注博主个人微信公众号:高级大数据架构师!在hive命令行创建表时报错:FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. MetaException(message:javax.jdo.JDODataStoreExceptio...

2018-05-09 10:28:54 2575

原创 cdh版本的hive安装以及配置

友情提示:更多有关大数据、人工智能方面技术文章请关注博主个人微信公众号:高级大数据架构师!hive依赖hadoop需要的软件包:hive-0.13.1-cdh5.3.6.tar.gz 、hadoop-2.5.0-cdh5.3.6.tar.gz1、hadoop的安装步骤请访问:    https://blog.csdn.net/qq_35036995/article/details/...

2018-05-09 10:27:21 10272

原创 基于linux系统和window系统git安装和使用

一、git简介  git是一款免费、开放源代码的分布式版本控制系统特点:  git是一个开源的分布式版本控制系统,可以有效,  高速的处理从很小到非常大的项目版本管理二、git安装  Linux:下载、安装1.安装系统环境  centos 6.9 64位2.git版本  2.8.03.安装步骤  (1)从GitHub官网下载      https://github.com/git/git/rele...

2018-05-09 09:56:30 584

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除