大数据
文章平均质量分 56
月魂_123123
这个作者很懒,什么都没留下…
展开
-
大数据学习2:mysql安装笔记
前期准备:1、CentOS6.52、MySQL安装包(mysql-5.6.23-linux-glibc2.5-x86_64.tar.gz)安装步骤:1、检查环节[root@hadoop001 ~]# ps -ef | grep mysqlroot 1161 1146 0 20:29 pts/1 00:00:00 grep mysql原创 2017-08-19 23:40:41 · 565 阅读 · 0 评论 -
大数据学习29:Azkaban3.x的简单理解 和 单机安装
Azkaban 是一个任务调度框架简单易用易维护,存在任务间依赖关系处理的框架可以记录用户操作,做审计1、特性:Compatible with any version of HadoopEasy to use web UISimple web and http workflow uploads // key-valueProject workspacesS原创 2017-11-29 19:17:43 · 1187 阅读 · 0 评论 -
大数据学习25:Hive 中 distribute by 的测试
目标:测试 distribute by 的作用,希望针对user列,将不同的用户分配在不同的reduce中,方便后期计算。======================测试1:reduce 4个,按 length(user) 分配测试2:reduce 4个,按 substr(user,0,2) 分配测试3:reduce 4个,按 user 分配测试4:reduce 5个,按 user 分配测原创 2017-10-25 10:48:32 · 2892 阅读 · 1 评论 -
大数据学习28:JAVA 连HBase的API小工具类
JAVA 连HBase的一个小工具类,主要为了记录和理解,实际使用的时候最好将main和其他类分开:package HBase_java_train;import java.io.IOException;import java.io.ObjectInputStream;import java.util.HashMap;import java.util.List;import java.uti原创 2017-10-31 15:44:13 · 447 阅读 · 0 评论 -
大数据学习24:hive_sql_累计求和小案例
环境: hive需求: 输入数据,每天用户的流量 分隔符 \t user date accesspanda 2017-1-01 5tgifshow 2017-1-01 3tyy 2017-1-01 2tlaifeng 2017-1-01 2tpanda 2017-1-02 5tgifshow 2017-1-02 3tyy 2017-1原创 2017-10-23 11:50:24 · 6899 阅读 · 0 评论 -
大数据学习23:hadoop-2.6.0-cdh5.7.0 编译,支持 native 和 snappy
目标: hadoop-2.6.0-cdh5.7.0 支持 native 和 snappy,对于压缩需要对hadoop进行编译。 检查部署耳朵cdh hadoop是否支持压缩[root@hadoop002 bin]# hadoop checknative -a步骤: 之前安装需要的软件和调试,步骤省略: 安装findbugs 并 配置环境变量 安装protobuf-2原创 2017-10-22 23:05:58 · 620 阅读 · 0 评论 -
大数据学习22:Apache-Hadoop 2.8.1 集群部署
Apache-Hadoop 集群部署1、准备[root@hadoop001 software]# cat /etc/hosts192.168.137.11 hadoop001192.168.137.12 hadoop002192.168.137.13 hadoop003$HADOOP_HOME /opt/software/hadoopData $HADOOP_HOM原创 2017-10-22 22:42:18 · 324 阅读 · 0 评论 -
大数据学习27:Hive元数据清理,从mysql层面删除hive元数据
由于之前配置了hive,hdfs 被格式化了,导致现在hive上原来的元数据没有清理掉。 由于hive 上所有元数据均保存在mysql中,所以,可以从mysql上删除表相关信息即可删除hive表,而且不会影响hdfs上数据。 分析: hive在mysql上的相关元数据表关系图: Hive在mysql的元数据表的关系和含义这篇博文中有详细字段说明: http://blog.csdn.ne原创 2017-10-30 22:05:37 · 1388 阅读 · 0 评论 -
大数据学习21:sqoop 语法和常用命令和小案例
1.1.0 sqoop 语法和常用命令 2.1.0 sqoop 典型用法 3.1.0 sqoop 的一个小案例 4.1.0 sqoop 的分区表导入导出======================================= 1.1.0 sqoop 语法和常用命令 hive导入参数 --hive-home 重写$HIVE_HOME --hive-import原创 2017-10-11 17:18:58 · 1070 阅读 · 0 评论 -
大数据学习30:Azkaban3.x 的 two server mode 部署
Azkaban two server mode 部署接着上次说到的编译,在编译好的目录中找到web 和 executor 。安装 azkaban-web-server解压:/opt/software/azkaban/azkaban/azkaban-web-server/build/distributionstar -xzvf azkaban-web-server-3.39.原创 2017-11-29 19:41:28 · 822 阅读 · 0 评论 -
大数据学习31:Elasticsearch 6.0 和 Elasticsearch header 安装记录
Elasticsearch 6.0 和 Elasticsearch header 安装记录------------------------------hosts文件151.101.0.133 raw.githubusercontent.com192.30.255.112 github.com54.231.40.211 github-production-release-asset-2e原创 2017-12-02 21:53:09 · 4084 阅读 · 0 评论 -
大数据学习39:ElasticSearch 常用查询2
ES常用查询2 1、子条件查询:特定字段查询所指特定值 Query context 在查询中,除了判断文档是否满足查询条件外,ES还会计算一个_score来标识匹配程度。 旨在判断目标文档和查询条件匹配的有多好。常用查询: (1)、全文本查询:针对文本类型数据#模糊匹配1POST 127.0.0.1:9200/book/_search{ "query":{ "m原创 2017-12-29 17:01:22 · 497 阅读 · 0 评论 -
大数据学习38:ElasticSearch 基础和常用命令-增删改查
基础概念 集群和节点 索引:含有相同属性的文档集合,索引通过名字识别,小写英文字母命名,不能中划线数字等 类似 database 分片:每个索引都有多个分片,每个分片是一个Lucene索引 好处:提高io读写效率 分片只能在创建索引的时候指定,后期不能修改备份:拷贝一份分片就完成了分片的备份 好处:当主分片不可用,备份即可顶替 备份可以查询,可以分摊压力 备份可以动态修改类型:索引原创 2017-12-29 15:07:04 · 1504 阅读 · 1 评论 -
大数据学习37:DataFrame集合减操作例子
对df1 和 df2 连个文件进程处理,将在df1 里编号并且不在 df2 里编号的数据取出。df1.txt:1 wxk 442 panda 553 monkey 664 tiger 33df2.txt:2 china3 usapackage zuoye11_22import org.apache.spark.sql.SparkSession/**原创 2017-12-05 20:59:48 · 1384 阅读 · 0 评论 -
大数据学习36:spark-core 和 spark-sql 学习
一、spark-core:使用spark core 需要定义一个sparkConf ,再将 sparkConf 传入 SparkContext 获得一个 sc 实例。val sparkConf = new SparkConf().setAppName( "Broadcast" ).setMaster( "local[3]" )val sc = new SparkContext( spa原创 2017-12-05 20:23:22 · 519 阅读 · 0 评论 -
大数据学习35:一个scala 操控 HDFS 文件目录的小例子
一个scala 操控 HDFS 文件目录的小例子: 包含了对文件路径的查看是否存在、删除、创建、重命名、移动。 仅作记录。工具类:HDFSUtilpackage Sparktestimport java.io.IOExceptionimport java.net.URIimport org.apache.hadoop.conf.Configurationimport org.apache原创 2017-12-05 00:07:50 · 3269 阅读 · 0 评论 -
大数据学习34:grafana 安装 和 Nginx 、EL 联调
1、grafana 安装wget https://s3-us-west-2.amazonaws.com/grafana-releases/release/grafana-4.6.2-1.x86_64.rpm为了使用yum方便,直接下载阿里的yum源[root@hadoop001 yum.repos.d]# wget -O /etc/yum.repos.d/CentOS-Base.rep原创 2017-12-03 17:20:00 · 2168 阅读 · 0 评论 -
大数据学习33:logstash 和 kibanba 安装以及ELK的联调记录
logstash 和 kibanba 安装以及ELK的联调记录1.Logstash安装[root@hadoop001 elk]# tar -xzvf logstash-6.0.0.tar.gz [root@hadoop001 elk]# cd logstash-6.0.0/[root@hadoop001 logstash-6.0.0]# lltotal 100drwxr原创 2017-12-03 16:12:25 · 591 阅读 · 0 评论 -
大数据学习32:Nginx 的 安装
Nginx 的 安装 1.安装PCRE库[root@hadoop001 ~]# cd /usr/local/[root@hadoop001 local]# tar -zxvf pcre-8.36.tar.gz[root@hadoop001 local]# chown -R root.root pcre-8.36[root@hadoop001 local]# cd pc原创 2017-12-02 23:07:06 · 289 阅读 · 0 评论 -
大数据学习26:关于HBase zookeeper 启动过程的一次剖析:
关于hbase zookeeper 启动过程的一次剖析: 在做完一些配置后[root@hadoop002 conf]# vi hbase-site.xml <configuration> <property> <name>hbase.rootdir</name> <value>hdfs://hadoop002:8020/hbase</value> </property>原创 2017-10-29 14:44:33 · 1106 阅读 · 0 评论 -
大数据学习19:hive元数据库一些查询和分区
有时根据需求,需要对hive中的表批量处理,这时可以到元数据库中进行一些查询操作,操作请慎重!! 【mysql】1、查询某表的分区 在Spark-sql查询hive表时,会由于元数据中文件与hdfs文件不一致而出现TreeNodeException的异常。 比如说,在hive中show partitions时有分区pt=20160601,但是对应HDFS路径下并没有这个子文件夹时,在Spark-转载 2017-10-05 20:13:57 · 1216 阅读 · 0 评论 -
大数据学习12:Hive的整体框架和DDL整理
一、hive的框架hadoop是一个海量分布式存储和计算的框架,hdfs负责存储,yarn调度,MapReduce计算。相对于MapReduce编程的不足,产生了hive的框架:1)MapReduce繁琐:要写mapper,reducer,driver,package2)海量数据存放在hdfs,如何快速对hdfs上的文件进行统计分析操作。①学java,学mapr②DBA:s原创 2017-09-14 18:12:23 · 461 阅读 · 0 评论 -
大数据学习6:HDFS的一些理解
HDFS的一些理解---------------------------------一、HDFS 的3个部分二、jps命令三、文件的读写流程:四、进程五、几个hdfs常用命令:---------------------------------一、HDFS 的3个部分namenode 作用(1)类似于维护文件系统,名字,时间,大小(2)原创 2017-08-29 00:24:05 · 464 阅读 · 0 评论 -
大数据学习10:HDFS-HA原理和理解
核心思路:在Active NN和Standby NN之间要有个共享的存储日志的地方,Active NN把EditLog写到这个共享的存储日志的地方,Standby NN去读取日志然后执行,这样Active和Standby NN内存中的HDFS元数据保持着同步。一旦发生主从切换Standby NN可以尽快接管Active NN的工作目录:一、SPOF(single point offai转载 2017-09-05 15:58:29 · 660 阅读 · 0 评论 -
大数据学习9:HDFS读写流程理解
HDFS读写流程:1.一般的文件读取操作包括:open、read、close等客户端读取数据过程,其中1、3、6步由客户端发起:客户端首先获取FileSystem的一个实例,这里就是HDFS对应的实例:①客户端调用FileSystem实例的open方法,获得这个文件对应的输入流,在HDFS中就是DFSInputStream②构造第一步中的输入流DFSInputStr转载 2017-09-05 15:54:38 · 363 阅读 · 0 评论 -
大数据学习8:YARN的工作原理
YARN工作原理: YARN比MapReduce1更具一般性,实际上MapReduce只是YARN应用的一种形式。相比经典的MapReduce来说,YARN的顶层包括更多的实体:(1)client客户端。(2)YARN资源管理器。负责协调集群上计算资源的分配。(3)YARN节点管理器。负责启动和监视集群中机器上的计算容器。(4)应用程序master。负责协调运行MapR转载 2017-09-04 09:31:40 · 512 阅读 · 0 评论 -
大数据学习:MAVEN编译下载太慢,修改为阿里源做法
在使用MAVEN中,编译时download很慢是由于使用默认的源进行下载,这里手动修改 $MAVEN_HOME/conf/settings.xml文件,找到mirror段,进行如下修改即可。* * nexus-aliyun http://maven.aliyun.com/nexus/content/groups/public原创 2017-08-21 23:59:34 · 481 阅读 · 1 评论 -
大数据学习1:大数据平台基础环境搭建:vm虚机搭建+网络调试+克隆+本地yum配置
一、VM虚机安装win7装vm后会出现一个报错:虚拟环境的长模式被禁用解释:笔记本或台式机没开虚拟化,在BIOS里调整cpu什么的建hadoop001,hadoop002,hadoop0032G内存,40G,二、调整系统(1)调网卡,能访问外网 ①在操作系统将网络共享,关win7防火墙 ②调整vm的nat网卡,修改ip ③修原创 2017-08-14 18:04:20 · 846 阅读 · 1 评论 -
大数据学习3:hadoop编译和伪分布式部署
本文用于记录hadoop编译和伪分布式部署的安装记录。1、检查是否安装过,是否有残留,检查hosts配置ps -ef | grep hadoopfind / -name hadoop[hadoop@hadoop001 ~]$ cat /etc/hosts 127.0.0.1 localhost localhost.localdomain localhost4 loc原创 2017-08-20 23:08:39 · 422 阅读 · 0 评论 -
大数据学习15:报错 FAILED: SemanticException Unable to determine if
大数据学习15:FAILED: SemanticException Unable to determine if报错:由于修改了hdfs 的端口,导致报错,这里是因为使用UDF自定义函数,hive要将hfds上的jar传入分布式缓存中,并且mysql中元数据未修改导致。 hive (default)> select ename ,hello(ename) from emp; converting原创 2017-09-22 23:10:43 · 7790 阅读 · 1 评论 -
大数据学习13:Hive的DML整理,查询走MapReduce还是走Fetch
Hive的DML整理:小问题:如何不通过访问meta data数据来获取我们指定表的字段hive> desc formatted emp; DML 加载数据:load关键字local 有:本地文件系统 ;没有:HDFS关键字filepath 文件路径关键字overwrite 有:覆盖;没有:追加关键字tablename:表名多次load overwr原创 2017-09-15 16:34:49 · 440 阅读 · 0 评论 -
大数据学习18:Hive在mysql的元数据表的关系和含义
在大数据中,很多情况下是将hive的元数据存放在mysql数据库中,通过hive配置的连接字符串: javax.jdo.option.ConnectionURL jdbc:mysql://localhost:3306/hive3?createDatabaseIfNotExist=true 能确认连原创 2017-10-05 19:39:33 · 1652 阅读 · 0 评论 -
大数据学习20:Maven 理解 和 spark、hadoop、hive编译
一、Maven的一些含义:groupId定义了项目属于哪个组,这个组往往和项目所在的组织或公司存在关联。譬如你在googlecode上建立了一个名为myapp的项目,那么groupId就应该是com.googlecode.myapp,如果你的公司是mycom,有一个项目为myapp,那么groupId就应该是com.mycom.myappartifactId定义了当前Mav转载 2017-10-10 09:57:27 · 414 阅读 · 0 评论 -
将自定义函数 helloUDF2 注册到hive 源码中,并且重新编译hive
环境: hive-1.1.0-cdh5.7.0 包 放在了 /root 下面 cdh 采用 cdh5.7.0 目标: 将自定义函数 helloUDF2 注册到hive 源码中,并且重新编译hive1、编写UDF (1)使用idea+maven,在maven中添加相关参数。 重要的是 hadoop-common 、hive-exec 、hive-jdbc 以下为我的maven,文件头修改原创 2017-09-29 14:52:59 · 343 阅读 · 0 评论 -
大数据学习5:hdfs和yarn 的学习记录
大数据学习5:hdfs和yarn 的学习记录=======================一、hdfs启动过程的解析二、hdfs配置参数三、yarn资源调度配置四、hdfs使用,yarn的任务检查五、配置过程中的检查========================一、hdfs启动过程的解析在伪分布式hadoop部署中,启动hdfs [ha原创 2017-08-26 16:58:47 · 776 阅读 · 0 评论 -
大数据学习7:Hadoop Yarn 的调优整理
Hadoop Yarn 的调优整理:对于Yarn的调优,主要从内存和CPU的角度去调整。应从集群所有节点的角度去考虑计算资源,根据Application申请的资源进行分配container(容器)。Container 是Yarn中资源分配的最小单元,包含了一定的内存和CPU资源。在集群中,调整内存,CPU,磁盘的资源的平衡性很重要,根据经验,每2个Container使用一块磁盘和1个CPU转载 2017-09-03 08:57:57 · 471 阅读 · 0 评论 -
大数据学习12:Hive环境搭建
Hive环境搭建Hadoop生态圈软件下载地址:http://archive.cloudera.com/cdh5/cdh/5/==================================Hadoop部署 hadoop-2.6.0-cdh5.7.0.tar.gzHive部署 hive-1.1.0-cdh5.7.0.tar.gz需要有java需要已经部署好mysql原创 2017-09-14 08:59:45 · 272 阅读 · 0 评论 -
大数据学习14:Hive中Join的原理和机制
Hive中Join的原理和机制转自:http://lxw1234.com/archives/2015/06/313.htm笼统的说,Hive中的Join可分为Common Join(Reduce阶段完成join)和Map Join(Map阶段完成join)。本文简单介绍一下两种join的原理和机制。Hive Common Join如果不指定MapJo转载 2017-09-19 15:52:55 · 495 阅读 · 0 评论 -
大数据学习11:Maven编译报错以及解决方法,配置aliyun库
一、场景在用maven对 hadoop,spark等进行源码编译的时候,经常会遇到编译报错。以下为一些解决办法。二、报错与分析排查:[ERROR] Failed to execute goal org.apache.maven.plugins:maven-remote-resources-plugin:1.5:process (default) on project spark原创 2017-09-07 23:29:26 · 7728 阅读 · 0 评论 -
大数据学习40:Flume metric 注解
启动flume监控的一种方式:flume-ng agent \--name a1 \--conf $FLUME_HOME/conf \--conf-file $FLUME_HOME/conf/exec-memory-hdfs-partition.conf \-Dflume.root.logger=INFO,console \-Dflume.monitoring.type=http \-D原创 2018-03-06 20:10:41 · 1202 阅读 · 0 评论