- 博客(19)
- 收藏
- 关注
原创 Hadoop的优化
1.从应用程序角度进行优化(1) 避免不必要的reduce任务如果mapreduce程序中reduce是不必要的,那么我们可以在map中处理数据, Reducer设置为0。这样避免了多余的reduce任务。(2) 为job添加一个Combiner为job添加一个combiner可以大大减少shuffle阶段从map task拷贝给远程reduce task的数据量。一般而言,combine...
2019-02-27 23:21:47 224
原创 用mapreduce处理数据倾斜问题
数据倾斜:map /reduce程序执行时,reduce节点大部分执行完毕,但是有一个或者几个reduce节点运行很慢,导致整个程序的处理时间很长,这是因为某一个key的条数比其他key多很多(有时是百倍或者千倍之多),这条key所在的reduce节点所处理的数据量比其他节点就大很多,从而导致某几个节点迟迟运行不完,此称之为数据倾斜。用hadoop程序进行数据关联时,常碰到数据倾斜的情况,这里提...
2019-02-27 23:08:26 207
原创 常用网址
1、hadoop 各发行版本下载地址:https://hadoop.apache.org/release.html2、Spark的每个稳定版本的安装说明,编程指南和其他文档:http://spark.apache.org/documentation.html3、kaggle论坛:https://www.kaggle.com/discussion4、Oracle软件下载:https:/...
2019-02-27 23:01:32 1116
原创 Kafka常用命令
Kafka常用命令查看kafka集群中的topic./kafka-topics.sh -list --zookeeper 192.168.16.100:2181新建一个topic./kafka-topics.sh --create --zookeeper 192.168.16.100:2181 --topic car_event --partitions 1 --replication-...
2019-02-23 13:18:38 90
原创 HDFS基础操作
HDFS基础操作HADOOP文件系统(对文件进行操作)bin hadoop的二进制的执行文件sbin 封装的bin目录的二进制执行文件的脚本,集群管理脚本(start-dfs.sh start-yarn.sh)启动hdfsstart-dfs.shstop-dfs.sh启动yarnstart-yarn.shstop-yarn.sh启动单实例的一个进程(单独启动一个datano...
2019-02-23 13:15:51 376
原创 Elaticsearch安装/Kibana安装
Elaticsearch安装安装SQL插件bin/plugin install file:///home/hadoop/install/elasticsearch-sql.zip进入http://192.168.16.100:9200/_plugin/sql/ 页面即可Kibana安装Configvim kibana.yml修改elasticsearch.url:”http:...
2019-02-23 13:10:02 218
原创 zookeeper集群搭建
tar -xvf zookeeper-3.4.6.tar.gzmv /home/hadoop/soft/zookeeper-3.4.6 /home/hadoop/installcd /home/hadoop/install修改环境变量vim /etc/profileexport JAVA_HOME=/usr/local/jdkexport HADOOP_HOME=/home/hadoo...
2019-02-23 12:59:50 91
原创 hive安装
su - hadoopxftp打开/home/hadoop/soft上传tar -xvf apache-hive-1.2.2-bin.tar.gzmv apache-hive-1.2.2-bin …/install/hivecd /home/hadoop/install/hive修改环境变量vim /etc/profileexport JAVA_HOME=/usr/local/jd...
2019-02-23 12:58:39 98
原创 mysql安装及使用
创建mysql用户useradd mysql安装目录tar -xvf mysql-5.6.39-linux-glibc2.12-x86_64.tar.gz移动(1.迁移到/usr/local下 2./usr/local/mysql不能存在)mv mysql-5.6.39-linux-glibc2.12-x86_64 /usr/local/mysql数据目录(数据目录)mkdir ...
2019-02-20 22:24:29 191
原创 sqoop安装
tar -xvf sqoop-1.4.6.bin__hadoop-0.23.tar.gzmv sqoop-1.4.6.bin__hadoop-0.23 …/install/sqoopcp mysql-connector-java-5.1.38.jar …/install/sqoop/lib/修改配置文件cp sqoop-env-template.sh sqoop-env.shvim ...
2019-02-20 22:22:14 135
原创 Hbase安装
tar -xvf hbase-1.2.1-bin.tar.gzmv hbase-1.2.6 /home/hadoop/installvim /home/hadoop/install/hbase-1.2.6/conf/hbase-site.xmlhbase.rootdirhdfs://master:9000/hbasehbase.cluster.distributedtrue...
2019-02-20 22:21:17 124
原创 spark安装
下载spark安装包下载地址spark官网:http://spark.apache.org/downloads.html这里我们使用 spark-2.0.2-bin-hadoop2.7版本.新建安装目录/usr/local解压tar -zxvf spark-2.0.2-bin-hadoop2.7.tgz重命名mv spark-2.0.2-bin-hadoop2.7 ...
2019-02-20 22:20:09 311
原创 flume安装
tar -xvf apache-flume-1.8.0-bin.tar.gz改名mv apache-flume-1.8.0-bin flume-1.8.0编写配置文件vim /home/hadoop/install/flume-1.8.0/conf/netcat-logger.confnetcat-loggerName the components on this agent#给三个...
2019-02-20 22:19:17 114
原创 storm安装
解压:tar -zxvf apache-storm-0.9.2-incubating.tar.gz修改配置文件:/conf/storm.yamlstorm.zookeeper.servers:- “192.168.88.200”- “192.168.88.201”- “192.168.88.202”nimbus.host: “192.168.88.200”分发到其他节点:scp...
2019-02-20 22:16:42 75
原创 Kafka的安装
Kafka的安装下载从http://kafka.apache.org/downloads.html下载kafka_2.11-1.0.1.tgz安装包解压安装包把安装包解压到指定目录tar –zxvf /root/ kafka_2.11-1.0.1 -C /usr/local/修改配置文件vi /usr/local/ kafka_2.11-1.0.1/config/server.pr...
2019-02-20 22:15:33 67
原创 hadoop分布式集群搭建
三节点的hadoop分布式集群搭建CentOS系统配置centos7关闭防火墙systemctl stop firewalld.servicesystemctl disable firewalld.service关闭selinuxsetenforce 0vim /etc/selinux/configSELINUX=disabledcentos7配置主机名 临时修改主机名hos...
2019-02-20 22:12:51 82
原创 主机网络配置--CentOS系统配置/Java环境配置
CentOS系统配置centos7关闭防火墙systemctl stop firewalld.servicesystemctl disable firewalld.service关闭selinuxsetenforce 0vim /etc/selinux/configSELINUX=disabledcentos7配置主机名 临时修改主机名hostname master永久修改主...
2019-02-20 22:08:44 109
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人