hadoop/hive
文章平均质量分 66
victory0508
这个作者很懒,什么都没留下…
展开
-
sentry配置与使用
1.解压tar zxvf apache-sentry-2.1.0-bin.tar.gz2.准备mysql构建数据库sentry3.配置cd sentry-2.1.0/cd confvi sentry-site.xml<configuration> <property> <name>sentry.hive.server</name> <value>110.188.1.86</value> <.原创 2021-08-05 18:04:43 · 495 阅读 · 0 评论 -
alluxio集群配置部署
1.解压 tar zxvf alluxio-1.4.0-cdh5-bin.tar.gz 2.配置 cd alluxio-1.4.0/conf 2.1 为实现持久化,创建hdfs目录,并配置相关设置 hdfs dfs -mkdir /alluxio 2.2 cp alluxio-site.properties.template alluxio-site.properties vi alluxio-site.properties allu...原创 2021-08-05 17:03:39 · 372 阅读 · 0 评论 -
kudu集群部署与配置
I. 服务器86上执行如下操作 1. rpm文件与安装 kudu-1.4.0+cdh5.12.2+0-1.cdh5.12.2.p0.8.el7.x86_64.rpm kudu-client0-1.4.0+cdh5.12.2+0-1.cdh5.12.2.p0.8.el7.x86_64.rpm kudu-client-devel-1.4.0+cdh5.12.2+0-1.cdh5.12.2.p0.8.el7.x86_64.rpm kudu-debuginfo-1.4.0+cdh5.1原创 2021-08-05 16:04:56 · 817 阅读 · 0 评论 -
FastDFS部署与配置
1. 在87服务器上编译源码 1.1 前提 sudo yum groupinstall "Development Tools" "Server platform Development" -y 1.2 编译依赖 cd fastdfs/libfastcommon-master sudo ./make.sh 检查是否编译成功 ls /usr/lib64 |grep libfastcommon ls /usr/lib |grep libfastcommon 1.3原创 2021-08-05 15:24:35 · 350 阅读 · 0 评论 -
presto 集群架构
3台服务器,10.8.1.8、10.8.1.7、10.8.1.6每台服务器,部署3个presto实例,分别为presto-server-0.248、presto-server-0.248原创 2021-06-01 16:16:52 · 610 阅读 · 0 评论 -
ranger部署
1. 准备wgethttps://mirrors.bfsu.edu.cn/apache/ranger/2.0.0/apache-ranger-2.0.0.tar.gztar zxvf apache-ranger-2.0.0.tar.gzmv apache-ranger-2.0.0 ranger200cd ranger200sudo yum -y install npmsudo yum -y install nodejs2.编译proxychains4 mvn -DskipTest..原创 2021-04-14 20:02:13 · 456 阅读 · 0 评论 -
hadoop2 namenode HA的问题
问题:namenode挂掉了,HA中standby的节点没有接过来1. namenode挂掉的原因:是与jornalnode通讯超时,20000ms不够,修改文件,添加如下参数来修改默认配置: dfs.qjournal.write-txns.timeout.ms 600002. namenode挂掉原创 2017-04-05 12:07:02 · 555 阅读 · 0 评论 -
hive和hbase集成
1. 检查$HIVE_HOME/lib下有无如下jar包:guava-14.0.1.jar,zookeeper.jar,hive-hbase-handler.jar,hbase-common.jar,hbase-server.jar,hbase-client.jar,htrace-core.jar,hbase-protocol.jar2. 如果缺少,则在$H原创 2017-04-05 16:06:03 · 763 阅读 · 1 评论 -
presto集群部署
presto集群规划train01:调度节点train01~train04:worker节点train01~train04:1. 下载presto-server-0.100.tar.gz之各个服务器节点的/opt2. tar zxvf presto-server-0.100.tar.gz3. cd presto-server-0.100mkdir etccd原创 2017-08-14 10:44:12 · 776 阅读 · 0 评论 -
mapreduce JVM参数配置的问题
在mapred-site.xml中添加参数: mapreduce.map.java.opts 1536 mapreduce.reduce.java.opts 3072在hive中执行简单查询:select count(1) from sample;报错:Error during job, obtaining debuggi原创 2017-04-05 13:26:00 · 1784 阅读 · 0 评论 -
pyspark读取Mysql数据
pyspark读取Mysql数据:样例code 1:from pyspark.sqlimportSQLContextsqlContext = SQLContext(sc)dataframe_mysql = sqlContext.read.format("jdbc").options(url="jdbc:mysql://127.0.0.1:3306/spark_db", driv原创 2017-03-29 17:50:43 · 12339 阅读 · 0 评论 -
利用CDH进行spark集群部署
1. 规划:master: brain01worker: brain02、brain03、brain042. 准备工作:2.1 安装Java 1.72.2 设置主机名,编辑/etc/hosts2.3 关闭iptables: service iptables stopchkconfig iptables off2.4 关闭selinux,修改文件/etc/原创 2017-03-23 16:05:44 · 6771 阅读 · 0 评论 -
spark如何利用namenode HA
1. 编辑/etc/spark/conf下的文件spark-env.sh+export HADOOP_CONF_DIR=/etc/hadoop/conf+export HADOOP_HOME=/usr/lib/hadoop这样就能访问到hdfs-site.xml中的配置: dfs.nameservices ctdn原创 2017-04-07 10:58:18 · 1352 阅读 · 0 评论 -
SCM部署集群问题
Problem:could not contact scm server at 10.10.10.144:7182, giving upCheck:其他服务器 echo "quit" | nc -v 10.10.10.144 7182本机fuser -n tcp 7182Solution:防火墙,开通7182原创 2017-02-27 10:37:04 · 423 阅读 · 0 评论 -
cloudera manager启动失败的问题
1. [root@hd0 ~]# service cloudera-scm-server startStarting cloudera-scm-server: [FAILED]2. [root@hd0 ~]# service cloudera-scm-server statuscloudera-scm-server原创 2016-12-15 18:12:52 · 6765 阅读 · 0 评论 -
Hadoop集群重启过程记录
1. brain02~04启动zksu - hadoopsudo service zookeeper-server restart2. brain01~03启动JNsudo service hadoop-hdfs-journalnode restart3. brain01上格式化namenodesudo -u hdfs hadoop namenode原创 2017-03-31 17:12:22 · 5250 阅读 · 0 评论 -
MLLib之LogisticRegression
MLlib 线性回归1. 数据输入:case_data.txt1,1 11,1.1 0.91,1 1.22,10 112,9 102,10 123,50 523,49 503,48 49from pyspark.mllib.linalg import Vectorsfrom pyspark.mllib.regression import La原创 2017-07-31 12:04:49 · 343 阅读 · 0 评论 -
如何设置Storm的并发
1. storm并行的基本概念storm集群中的一个supervisor节点可以运行一个或者多个worker,对应于一个或者多个topologies。1个worker进程运行1个或多个executor线程。每个worker从属于一个topology。executor是一个物理线程,每1个executor运行着相同的组件(spout或bolt)的1个或多个task。1个task执转载 2015-04-02 21:46:40 · 2113 阅读 · 0 评论 -
presto支持superset和hue
1. superset格式:presto://hive@localhost:port/<presto_catalog_name>/<hive_db_name>案例:presto://hive@10.10.10.10:8070/hive/adsa. 地址和端口都是presto主节点配置b. hive是什么 创建的 /etc 下有一个catalog 文件夹,...原创 2018-08-20 18:10:28 · 2190 阅读 · 0 评论 -
hive数据库权限控制
1. 登陆hue,右上角admin->Manage Users增加Groups:business设置权限:beeswax.access:Launch this application(2)增加User:xcy,在Step2 添加Group[business]2. 登陆hive参数配置平台,增加如下参数:hive.security.authorization.enabl...原创 2018-08-20 16:01:16 · 5300 阅读 · 0 评论 -
hive与mongodb连接
1.下载wget http://repo1.maven.org/maven2/org/mongodb/mongo-hadoop/mongo-hadoop-hive/2.0.2/mongo-hadoop-hive-2.0.2.jarwget http://repo1.maven.org/maven2/org/mongodb/mongo-hadoop/mongo-hadoop-core/2.0....原创 2018-08-03 16:53:17 · 2585 阅读 · 0 评论 -
hiveserver2 HA配置
1. 修改hive-site.xml<property><name>hive.server2.support.dynamic.service.discovery</name><value>true</value></property><property><name>hive.server原创 2018-05-30 14:10:59 · 541 阅读 · 0 评论 -
CDH集群部署与设置
1. ctdn-1vi /etc/host#127.0.0.1 localhost localhost.localdomain localhost4 localhost4.localdomain4#::1 localhost localhost.localdomain localhost6 localhost6.localdomain610.11.8.20 ctdn-110.1...原创 2018-04-08 16:35:57 · 3393 阅读 · 0 评论 -
elasticsearch与Hadoop
1. 安装sdkyum -y install unzipyum -y install zipcurl -s "https://get.sdkman.io" | bash新终端下执行:source "$HOME/.sdkman/bin/sdkman-init.sh"检查是够安装成功:(1) sdk version(2) sdk help补充删除sdktar zcvf ~/sdkman-backup_...原创 2018-04-08 13:03:36 · 1674 阅读 · 0 评论 -
ML之LogisticRegression
MLlib 线性回归1. 数据输入:tips.csv1,1,11,1.1,0.91,1,1.22,10,112,9,102,10,123,50,523,49,503,48,49from pyspark.ml.linalg import Vectorsfrom pyspark.ml.feature import VectorAssemblerf原创 2017-07-31 15:54:40 · 1487 阅读 · 0 评论 -
hadoop NameNode进入安全模式的解决方案
1. 实验环境,数据丢失不重要删除NameNode /tmp下所有数据,重新 format。这种操作将丢失所有数据2. 生产环境,暴力方式hdfs dfsadmin -safemode leave不过这种方式执行后,需要恢复数据,需要等待很长时间hdfs fsck /3. 生产环境,需要重启Hadoop集群修改hdfs-site.xml中的参数dfs.safem原创 2016-11-28 13:07:55 · 3561 阅读 · 0 评论 -
基于大数据做文本分析
在对大数据的认识中,人们总结出它的4V特征,即容量大、多样性、生产速度快和价值密度低,为此产生出大量的技术和工具,推动大数据领域的发展。为了利用好大数据,如何有效的从其中提取有用特征,也是重要的一方面,工具和平台化必须依靠正确的数据模型和算法才能凸显出其重要的价值。现在就文本分析作为案例来分析数据处理技术在大数据领域的作用和影响。首先讨论文本分析的三种模型:词袋模型、TF-IDF短语加权表示和原创 2016-03-01 10:52:04 · 9869 阅读 · 0 评论 -
HDFS一些参数的设置说明
1. dfs.datanode.du.reserved每块磁盘保留的空余空间,应预留一些给非hdfs文件使用,默认值为0,其单位为字节。那么实际可用于HDFS的存储空间就是;总存储空间-dfs.datanode.du.reserved。如果此参数配置为10G,则df -h得出如下结果:Filesystem Size Used Avail Use%原创 2016-02-27 11:08:33 · 13089 阅读 · 1 评论 -
Cloudera Manager安装
接触CDH,深刻了解CM是不可缺少的环节。首先,什么是Cloudera Manager?Cloudera Manager,简称CM,用于管理CDH4集群,可进行节点安装、配置、服务配置等,提供Web窗口界面提高了Hadoop配置可见度,而且降低了集群参数设置的复杂度。接下来就是安装,很多初学者总是把能够成功安装看的很重,其实这在对CM的利用中仅占很小的成分。有如下几种安装方式:转载 2015-04-03 11:06:36 · 1279 阅读 · 0 评论 -
Hadoop底层机制
1. RPC机制1.1 RPC协议把某些接口和接口中的方法称为协议,客户端和服务端只要实现这些接口中的方法就可以进行通信了。重点接口介绍如下: VersionedProtocol:它是所有RPC协议接口的父接口,其中只有一个方法:getProtocolVersion()(1)HDFS相关ClientDatanodeProtocol:一个客户端和datanode之间的转载 2015-04-02 18:07:29 · 2663 阅读 · 0 评论 -
Hue:Hadoop 图形化用户界面
Hue是一个能够与Apache Hadoop交互的Web应用程序。一个开源的Apache Hadoop UI。特性:一个HDFS的文件浏览器,一个MapReduce/YARN的Job浏览器,一个 HBas的浏览器,Hive,Pig,Cloudera Impala 和 Sqoop2 的查询编辑器。它还附带了一个Oozie的应用程序,用于创建和监控工作流程,一个Zookeeper浏览器和SDK原创 2015-03-24 19:49:16 · 8292 阅读 · 0 评论 -
MapReduce工作原理图文详解
前言:前段时间我们云计算团队一起学习了hadoop相关的知识,大家都积极地做了、学了很多东西,收获颇丰。可是开学后,大家都忙各自的事情,云计算方面的动静都不太大。呵呵~不过最近在胡老大的号召下,我们云计算团队重振旗鼓了,希望大伙仍高举“云在手,跟我走”的口号战斗下去。这篇博文就算是我们团队“重启云计算”的见证吧,也希望有更多优秀的文章出炉。汤帅,亮仔,谢总•••搞起来啊!呵呵,下面转载 2015-04-02 18:13:00 · 488 阅读 · 0 评论 -
Storm记录级容错的基本原理
1. 实现一个实时计算系统如果让我们自己设计一个实时计算系统,我们要解决哪些问题:低延迟。实时计算系统,延迟是一定要低的。高性能。性能不高就是浪费机器 。分布式。系统都是为应用场景而生的,如果你的应用场景、你的数据在单机上就能搞定,那么不用考虑这些复杂的问题了。可扩展。伴随着业务的发展,我们的数据量、计算量可能会越来越大,所以希望这个系统是可扩展的。转载 2015-04-01 18:34:57 · 966 阅读 · 0 评论 -
Storm nimbus总结
一. Storm的基本概念首先我们通过一个 storm 和hadoop的对比来了解storm中的基本概念。 HadoopStorm系统角色JobTrackerNimbusTaskTrackerSupervisorChildWorker转载 2015-04-01 17:57:14 · 4740 阅读 · 0 评论 -
Bloom Filter概念和原理
http://jishu521.com/post/z_lo_l_m/8252911.htmlBloom Filter概念和原理焦萌 2007年1月27日 Bloom Filter是一种空间效率很高的随机数据结构,它利用位数组很简洁地表示一个集合,并能判断一个元素是否属于这个集合。Bloom Filter的这种高效是有一定代价的:在判断一个元素是否属于某个集合时,有可能会把不属于转载 2013-03-25 15:28:58 · 430 阅读 · 0 评论 -
【流式计算】Twitter Storm: Transactional Topolgoy简介
http://blog.csdn.net/sunxinhere/article/details/7965159本文翻译自: https://github.com/nathanmarz/storm/wiki/Transactional-topologies概述Storm通过保证每个tuple至少被处理一次来提供可靠的数据处理。关于这一点最常被问到的问题就是“既然tuple可能转载 2013-03-25 16:10:59 · 516 阅读 · 0 评论 -
Storm数据流模型的分析及讨论
http://www.cnblogs.com/panfeng412/archive/2012/07/29/storm-stream-model-analysis-and-discussion.html本文首先介绍了Storm的基本概念和数据流模型,然后结合一个典型应用场景来说明Storm支持Topology之间数据流订阅的必要性,最后对比了Storm与另一个流处理系统在数据流模型上的区别之转载 2013-03-25 13:28:08 · 690 阅读 · 0 评论 -
storm常见问题解答
http://www.blogjava.net/killme2008/archive/2011/12/19/366763.html最近有朋友给我邮件问一些storm的问题,集中解答在这里。一、我有一个数据文件,或者我有一个系统里面有数据,怎么导入storm做计算?你需要实现一个Spout,Spout负责将数据emit到storm系统里,交给bolts计算。怎么实现spout转载 2013-03-25 16:41:04 · 567 阅读 · 0 评论 -
hadoop压缩算法的总结
1. 压缩成为必须对数据的3个关键特征描述 3V:volume、variety和value。volume,数据量与日俱增,在于智能手机、Internet和感知器等的使用。variety,大数据的数据格式,音频、视频、图像等。value,数据近乎实时的产生以使得有用信息能够服务需要。大数据不仅仅带来了新的数据类型和存储机制,也带来了新种类的数据分析。现在数据增长太快了,数据的原创 2015-08-23 12:37:33 · 3643 阅读 · 0 评论 -
Yarn框架
1. YARN产生的理论基础hadoop 1 将计算Job划分为JobTracker和TaskTracker,JobTracker通过heartbeat机制与跑计算任务的机器通讯,TaskTracker则要肩负两个责任,一是监视所在服务器的资源,二是监视Task运行状况,通过heartbeat通讯汇报这两种状况。造成的问题:JobTracker,集中处理请求带来了单点故障,任务请求增加则资原创 2015-08-23 22:04:25 · 539 阅读 · 0 评论