hadoop
文章平均质量分 64
蘑菇丁
每份经历,不管是顺境还是坎坷,都会增加生命的厚度。
世界很小,请带着梦想一起奔跑。
世界很大,请带着坚持努力成长!
勇于挑战,不断突破自我!加油!!!
建了一个大数据运维群,各位大数据运维的同学可以一起讨论 群号584912368
https://github.com/liangjingbin99/shouhuo/tree/master/%E7%AC%AC02%E7%AB%A0
展开
-
Timeline Service V2.0 Reader 启动不了
解决方法是:将yarn配置文件中的is_hbase_system_service_launch和use_external_hbase勾选最终成功启动原创 2019-11-20 12:07:51 · 2281 阅读 · 0 评论 -
spark2如何集成到cdh里
最近做性能测试需要spark2测试下和spark1.6性能有多大差别,官方文档里写着可以集成,但是自己怎么搞都不行,折磨了3天的时间,目前终于把spark2集成到集群里了我安装的是最新版本的下载spark2安装包wget http://archive.cloudera.com/beta/spark2/parcels/latest/SPARK2-2.0.0.cloudera.beta原创 2017-06-14 11:04:04 · 6980 阅读 · 13 评论 -
java 编写mllib kmean算子
package com.ecloud;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.api.java.JavaSparkContext;import org.apache.spark.mllib.clustering.KMe原创 2017-12-08 09:11:36 · 376 阅读 · 0 评论 -
用eclipse 连接kafka streaming 执行worldcount
package com.ecloud;import java.util.Arrays;import java.util.HashMap;import java.util.Map;import java.util.regex.Pattern;import org.apache.spark.SparkConf;import org.apache.spark.st原创 2017-12-05 15:08:03 · 423 阅读 · 0 评论 -
java 操作hdfs api
package com.ecloud;import java.io.IOException;import java.net.URI;import java.net.URISyntaxException;import org.apache.commons.compress.utils.IOUtils;import org.apache.hadoop.conf.Co原创 2017-12-04 18:03:12 · 263 阅读 · 0 评论 -
python爬虫网站图片
1.创建斗鱼工程[root@namenode02 mySpider]# scrapy startproject douyuNew Scrapy project 'douyu', using template directory '/usr/lib64/python2.7/site-packages/scrapy/templates/project', created in: /r原创 2017-08-28 18:08:31 · 546 阅读 · 0 评论 -
kafka-manager 安装
1.安装sbt编译环境[root@namenode01 kafka-manager]# curl https://bintray.com/sbt/rpm/rpm |tee /etc/yum.repos.d/bintray-sbt-rpm.repo % Total % Received % Xferd Average Speed Time Time Time C原创 2017-08-23 15:23:37 · 1092 阅读 · 0 评论 -
PIP安装Tensorflow
最近研究自动化摘要,因此需要用到Tensorflow,现将安装步骤记录下1.下载CRF++-0.58.tar.gz2.cd到压缩包目录,执行: (1) tar zxvf CRF++-0.58.tar.gz (2)cd CRF++-0.58 (3)./configure (4)make (5)su (6)make install3.进入子目录Pyth原创 2017-08-03 18:25:01 · 1375 阅读 · 0 评论 -
cdh安装hadoop平台根目录空间不足如何解决
目前大部分公司安装操作系统时给根仅有50G,但是cdh的lib 和日志都放在/var下,时间长了空间会爆解决方法:1.至少给根100G的空间2.只能做软连接连到其他盘阵下具体操作步骤如下:/data是外挂的盘阵后者你自己大的路径cp -r -p /var/log /data/;mv /var/log /var/log_bak;cd /var/ ;ln -s /data原创 2017-07-19 16:27:54 · 2701 阅读 · 0 评论 -
研究tableas可视化破解博客
http://blog.csdn.net/bdchome/article/details/54136926原创 2017-07-14 17:35:30 · 285 阅读 · 0 评论 -
安装spark-bench
git clone https://github.com/SparkTC/spark-bench.gitcd spark-bench/mvn package install[root@datanode01 bin]# pwd/opt/spark-bench/bin[root@datanode01 bin]# ./build-all.sh [root@原创 2017-06-23 09:29:49 · 2090 阅读 · 0 评论 -
hadoop HDFS存储原理
来源url:http://www.36dsj.com/archives/41391根据Maneesh Varshney的漫画改编,以简洁易懂的漫画形式讲解HDFS存储机制与运行原理。一、角色出演如上图所示,HDFS存储相关角色与功能如下:Client:客户端,系统使用者,调用HDFS API操作文件;与NN交互获取文件元数据;转载 2017-06-01 10:17:25 · 785 阅读 · 1 评论 -
ambari 离线安装
先明确几个概念:1. Ambari只能安装Hortonworks Data Platform,即Hortonworks的开源Hadoop,不支持Apach的Hadoop平台;2. 对于已经安装了Apach Hadoop或者其他Hadoop平台的,不能使用Ambari来管理; 再说几个注意事项:1. Ambari默认的安装方式是使用yum,从远程下载HDP组件安装,而HDP平台安原创 2017-05-25 10:51:33 · 10761 阅读 · 0 评论 -
naivebayes 性能测试
1. 安装软件 yum -y install gcc gcc-c++ libstdc++-develbison byacc flex cd /opt/BigDataBench_V3.2.5_Spark/BigDataGeneratorSuite/Text_datagen [root@namenode2 Text_datagen]# tar zxvfgsl-1.15.tar.gz原创 2017-05-11 17:40:18 · 688 阅读 · 0 评论 -
HDFS优化Hadoop性能
来自https://community.hortonworks.com/articles/103176/hdfs-settings-for-better-hadoop-performance.html简介本文将介绍可以优化Hadoop性能的HDFS设置。注意,本文重点在提高HDFS性能,但是修改的部分设置有可能影响系统稳定性。请在了解清楚每个设置的作用后再修改。使用推荐的加载选项经测试,如下加载选...翻译 2018-03-21 16:43:42 · 1777 阅读 · 0 评论 -
cdh集成phoenxi 安装步骤
1.下载地址wgethttp://archive.cloudera.com/cloudera-labs/phoenix/parcels/latest/CLABS_PHOENIX-4.7.0-1.clabs_phoenix1.3.0.p0.000-el7.parcelwget http://archive.cloudera.com/cloudera-labs/phoenix/parcels/lat原创 2018-01-19 13:41:02 · 1800 阅读 · 0 评论 -
安装airflow
安装依赖yum -y install zlib-devel bzip2-devel openssl-devel ncurses-devel sqlite-devel readline-devel tk-devel gdbm-devel db4-devel libpcap-devel xz-devel gcc python-devel.x86_64下载setuptoos并安装cd /opt/...原创 2018-07-03 14:23:57 · 804 阅读 · 0 评论 -
Spark Streaming调优
操作场景SparkStreaming作为一种mini-batch方式的流式处理框架,它主要的特点是:秒级时延和高吞吐量。因此SparkStreaming调优的目标:在秒级延迟的情景下,提高SparkStreaming的吞吐能力,在单位时间处理尽可能多的数据。说明:本章节适用于输入数据源为Kafka的使用场景。操作步骤一个简单的流处理系统由以下三部分组件组成:数据源 + ...原创 2019-10-10 15:20:12 · 365 阅读 · 0 评论 -
beline 报错[ERROR] Terminal initialization failed; falling back to unsupported
Java HotSpot(TM) 64-Bit Server VM warning: ignoring option MaxPermSize=512M; support was removed in 8.0Java HotSpot(TM) 64-Bit Server VM warning: Using incremental CMS is deprecated and will likely b...原创 2019-03-08 14:39:17 · 620 阅读 · 0 评论 -
cdh实现 impala deamon 和hiveserver2 ha 并在hue内集成他们jdbcha
安装haproxy实现haInstall the load balancer: root@bigdata-150021:~# yum -y install haproxyroot@bigdata-150021:~# cp /etc/haproxy/haproxy.cfg /etc/haproxy/haproxy.cfg.bak配置haproxycat /etc/haproxy/h...原创 2019-01-09 14:50:48 · 1860 阅读 · 1 评论 -
统计hdfs小文件语句
hdfs dfs -du -h /hive/warehouse/test.db/*/*/ | awk '{print $1$2 "\t" $5}' | awk '{if($1 ~/K/ || $1 ~/M/) print $0}' | awk '{if($1 ~/M/) print $0}'|sed 's/M//g'| awk '{if($1 <128) print $1"M""\t"$2...原创 2019-01-18 11:06:32 · 1162 阅读 · 0 评论 -
如何为Impala Daemon配置Executor和Coordinator
登录Cloudera Manager界面进入Impala服务,点击“配置”进入角色组界面,新建Coordinator角色组,将一部分Impala Daemon节点划分为Coordinator Group角色组4.进入Impala的配置页面,为我们划分的两个组配置高级参数在Impala配置中搜索“Impala Daemon 命令行参数高级配置代码段(安全阀)”,为...原创 2019-01-18 10:57:49 · 1977 阅读 · 0 评论 -
flume搜集数据到hadoop HA可能出现的问题及解决办法
把Hadoop集群的hdfs-site.xml、core-site.xml两个配置文件复制到 flume安装目录的conf目录去,把hadoop-hdfs-2.7.1.jar复制到 Flume lib目录。ERROR - org.apache.flume.sink.hdfs.HDFSEventSink.process(HDFSEventSink.java:459)] process fail...原创 2018-11-20 16:19:16 · 930 阅读 · 0 评论 -
Hive on spark 报错FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.spark
解决方法如下:cp /opt/cloudera/parcels/CDH-5.13.3-1.cdh5.13.3.p0.2/lib/spark/lib/spark-assembly.jar /opt/cloudera/parcels/CDH-5.13.3-1.cdh5.13.3.p0.2/lib/hive/lib/cp /etc/hadoop/conf/yarn-site.xml /etc/s...原创 2018-11-20 16:16:37 · 6030 阅读 · 4 评论 -
yarn和cpu调优---转载
摘要: Hadoop YARN同时支持内存和CPU两种资源的调度,本文介绍如何配置YARN对内存和CPU的使用。 YARN作为一个资源调度器,应该考虑到集群里面每一台机子的计算资源,然后根据application申请的资源进行分配Container。Container是YARN里面资源分配的基本单位,具有...Hadoop YARN同时支持内存和CPU两种资源的调度,本文介绍如何配置YARN对...转载 2018-10-25 10:16:26 · 601 阅读 · 1 评论 -
sqool 用法
从corp数据库导入所有表:<span style="color:#222222">$ sqoop import-all-tables --connect jdbc:mysql://db.foo.com/corp</span>验证它是否有效:<span style="color:#222222">$ hadoop fs -ls找到4项drwx...翻译 2018-09-29 14:24:28 · 1010 阅读 · 0 评论 -
redhat 安装redash
操作系统Redhat7..2,近期迁移平台组件,目前网上的安装文档都是centos和unbut的,没有红帽平台的,经过一天的折腾终于把redash安装完毕,以下是安装步骤① 初始化yum install python-pip python-dev nginx curl build-essential pwgen yum install...原创 2018-10-12 14:15:12 · 3482 阅读 · 0 评论 -
如何迁移CDH的opt目录
迁移使用软链接的方式将CDH的安装目录/opt/cloudera迁移至/data1/目录下,具体操作如下:1.首先将/opt/cloudera目录mv到需要迁移的目录下[root@cdh disk1]# cd /opt/[root@cdh opt]# mv cloudera/ /data/2.mv完成后创建/opt/cloudera目录的软连,命令如下[root@cdh opt...原创 2018-09-13 10:58:40 · 790 阅读 · 0 评论 -
CDH 基本环境安装脚本
测试过的脚本[root@name01 ~]# cat filelist 格式ip 主机名 用户名 密码17.1.5.12 name02 root qwer[root@name01 ~]# cat 4.txt 17.1.5.12#!/bin/bashfilelist=/root/filelistssh-keygen -f ~/.ssh/id_rsa -P原创 2017-04-28 17:51:48 · 512 阅读 · 0 评论 -
剖析 Elasticsearch 集群:分布式的三个 C、translog 和 Lucene 段
剖析Elasticsearch集群系列涵盖了当今最流行的分布式搜索引擎Elasticsearch的底层架构和原型实例。 本文是这个系列的第二篇,我们将讨论Elasticsearch如何处理分布式的三个C((共识(consensus)、并发(concurrency)和一致(consistency))的问题、Elasticsearch分片的内部概念,比如translog(预写日志,WAL(Write转载 2017-03-27 09:51:09 · 535 阅读 · 0 评论 -
hadoop常用命令
查看CPU:cat /proc/cpuinfo | grep name | cut -f2 -d: | uniq -c查看内存:free –m查看磁盘:df -m处理器信息:dmidecode | grep -A48 'Processor Information$'查看目录的大小[hadoop@masternode1 ~]$ hdfs dfs -ls /Found 8原创 2016-11-10 11:46:52 · 1226 阅读 · 0 评论 -
hadoop自动安装的脚本与步骤
最近要在10几台机器上安装hadoop。对于这种繁复而重复的工作,一步步的打命令行,对于程序员来说是一件不能忍的事情。所以我就琢磨着怎么写一个脚本来自动安装hadoop。任务: 在10几台机器上中的任意一台执行脚本,即可安装好hadoop。条件: 每台机器的用户名和密码都是一样的。每台机器都配置好了ssh,能够远程登录。解决思路: 1. 首先读取配置文件,读取到节点的ip和想要的转载 2016-11-16 10:55:14 · 1225 阅读 · 0 评论 -
hadoop组件书籍列表
hbase书籍http://abloz.com/hbase/book.html原创 2016-11-09 16:22:39 · 480 阅读 · 0 评论 -
hdfs快照备份恢复
生产10G文件[hadoop@masternode1 ~]$ dd if=/dev/zero of=/home/hadoop/a.txt bs=100M count=100记录了100+0 的读入记录了100+0 的写出10485760000字节(10 GB)已复制,64.0325 秒,164 MB/秒向hdfs上传10G文件[hadoop@masternode1 ~]原创 2016-11-10 16:07:17 · 1854 阅读 · 0 评论 -
HMaster 节点失效及恢复测试
1.每隔 1 秒并行地对 t1 执行 scan 和 put 数据操作;2.停止主 HMaster 所在节点的进程,停止该节点上的 HMaster 进程;3. 主备切换过程中,观察 HBase 客户端日志,读写操作执行状态和 HMaster倒换时间;4.倒换完成,检查倒换告警信息是否上报正确;杀掉hbase主节点[hadoop@masternode1 test]$ jps原创 2016-11-09 17:23:54 · 3519 阅读 · 0 评论 -
hadoop测试namenode 主机点失效及恢复测试
1.从本地拷贝 100 个 100MB 的文件到 HDFS; 2.在文件拷贝过程中,停止主 NameNode 所在节点的 NameNode 进程,模 拟故障; 3.观察客户端日志文件发现故障; 4.文件拷贝完成后,将 100 个文件复制到本地,检测文件的一致性;1.首先生产一个100个100M的文件dd if=~/CDH-5.7.1-1.cdh5.7.1.p0.11-e原创 2016-11-09 15:50:08 · 1218 阅读 · 0 评论 -
hadoop2.7.1HA集群部署
1.修改文件/etc/hostname里的值即可,修改成功后用hostname命令查看当前主机名是否设置成功。[root@masternode centos]# cat /etc/hosts#127.0.0.1 localhost localhost.localdomain localhost4 localhost4.localdomain4#::1 localho原创 2016-09-22 15:23:44 · 1263 阅读 · 0 评论 -
Sqoop-1.99.7安装部署
Sqoop安装部署官方文档:http://sqoop.apache.org/下载地址[hadoop@slavenode8 hadoop]$ wget http://apache.fayea.com/sqoop/1.99.7/sqoop-1.99.7-bin-hadoop200.tar.gz 设置环境变量[hadoop@slavenode8 sqoop-1.99.7]$ vi ~原创 2016-10-26 14:12:01 · 3783 阅读 · 1 评论 -
Hadoop集群之Hive HA 安装配置
Hive是基于Hadoop构建的一套数据仓库分析系统,它提供了丰富的SQL查询方式来分析存储在Hadoop 分布式文件系统中的数据。其在Hadoop的架构体系中承担了一个SQL解析的过程,它提供了对外的入口来获取用户的指令然后对指令进行分析,解析出一个 MapReduce程序组成可执行计划,并按照该计划生成对应的MapReduce任务提交给Hadoop集群处理,获取最终的结果。元数据——如表模式原创 2016-10-13 15:22:28 · 2636 阅读 · 0 评论 -
ambari 安装
1.ambari 官网地址:http://ambari.apache.org2.下载ambari[hadoop@slavenode7 hadoop]$ wget http://public-repo-1.hortonworks.com/ambari/centos6/2.x/updates/2.0.1/ambari.repo100%[=========================原创 2016-10-14 10:52:12 · 4219 阅读 · 1 评论