月魂_123123-CSDN博客

原创 oracle 11g RAC 清理磁盘空间，crfclust.bdb过大的处理

记录一下，查看磁盘空间，发现有个文件目录一直在变大，查看后发现 crfclust.bdb 有 9个G ，网上搜索后得到解决方案，测试通过并记录操作如下：1、checkcrsctl stat res ora.crf -init -t2、stopcrsctl stop res ora.crf -init3、deleterm crfclust.bdb4、 startcrsctl start res or...

2018-03-19 10:42:02 2868

原创大数据学习40：Flume metric 注解

启动flume监控的一种方式：flume-ng agent \--name a1 \--conf $FLUME_HOME/conf \--conf-file $FLUME_HOME/conf/exec-memory-hdfs-partition.conf \-Dflume.root.logger=INFO,console \-Dflume.monitoring.type=http \-D

2018-03-06 20:10:41 1331

原创 zabbix 安装记录

zabbix 安装一、目标：1.搭建server和agent二、环境server和agent：192.168.137.11 Centos6.5三、步骤1、通过yum安装php和相关的软件。(用的阿里源)要安装php5.4以上版本，所以需要这样处理。①检查当前安装的phpyum list installed | grep php②如果有安装的PHP包，先删除他们yum remove php.x86_...

2018-03-06 20:02:49 1057

原创大数据学习39：ElasticSearch 常用查询2

ES常用查询2 1、子条件查询：特定字段查询所指特定值 Query context 在查询中，除了判断文档是否满足查询条件外，ES还会计算一个_score来标识匹配程度。旨在判断目标文档和查询条件匹配的有多好。常用查询： (1)、全文本查询：针对文本类型数据#模糊匹配1POST 127.0.0.1:9200/book/_search{ "query":{ "m

2017-12-29 17:01:22 599

原创大数据学习38：ElasticSearch 基础和常用命令-增删改查

基础概念集群和节点索引：含有相同属性的文档集合，索引通过名字识别，小写英文字母命名，不能中划线数字等类似 database 分片：每个索引都有多个分片，每个分片是一个Lucene索引好处：提高io读写效率分片只能在创建索引的时候指定，后期不能修改备份：拷贝一份分片就完成了分片的备份好处：当主分片不可用，备份即可顶替备份可以查询，可以分摊压力备份可以动态修改类型：索引

2017-12-29 15:07:04 1619

原创 python：BeautifulSoup select()/select_one() 用法总结

BeautifulSoup select()/select_one() 用法总结：html_doc = """<html><head><title>The Dormouse's story</title></head><body>The Dormouse's storyOnce upon a time t

2017-12-29 10:10:41 18011

原创大数据学习37：DataFrame集合减操作例子

对df1 和 df2 连个文件进程处理，将在df1 里编号并且不在 df2 里编号的数据取出。df1.txt:1 wxk 442 panda 553 monkey 664 tiger 33df2.txt:2 china3 usapackage zuoye11_22import org.apache.spark.sql.SparkSession/**

2017-12-05 20:59:48 1500

原创大数据学习36：spark-core 和 spark-sql 学习

一、spark-core：使用spark core 需要定义一个sparkConf ，再将 sparkConf 传入 SparkContext 获得一个 sc 实例。val sparkConf = new SparkConf().setAppName( "Broadcast" ).setMaster( "local[3]" )val sc = new SparkContext( spa

2017-12-05 20:23:22 637

原创大数据学习35：一个scala 操控 HDFS 文件目录的小例子

一个scala 操控 HDFS 文件目录的小例子：包含了对文件路径的查看是否存在、删除、创建、重命名、移动。仅作记录。工具类：HDFSUtilpackage Sparktestimport java.io.IOExceptionimport java.net.URIimport org.apache.hadoop.conf.Configurationimport org.apache

2017-12-05 00:07:50 3414

原创修改redo log 大小的记录：

修改redo log 大小的记录：Redo log的四种状态(CURRENT、ACTIVE、INACTIVE、UNUSED)1. CURRENT指当前的日志文件，在进行实例恢复时是必须的；2. ACTIVE是指活动的非当前日志，在进行实例恢复时会被用到。Active状态意味着，Checkpoint尚未完成，因此该日志文件不能被覆盖。3. INACTIVE是非活动日志，在实例恢复时不

2017-12-04 18:04:01 921

原创大数据学习34：grafana 安装和 Nginx 、EL 联调

1、grafana 安装wget https://s3-us-west-2.amazonaws.com/grafana-releases/release/grafana-4.6.2-1.x86_64.rpm为了使用yum方便，直接下载阿里的yum源[root@hadoop001 yum.repos.d]# wget -O /etc/yum.repos.d/CentOS-Base.rep

2017-12-03 17:20:00 2259

原创大数据学习33：logstash 和 kibanba 安装以及ELK的联调记录

logstash 和 kibanba 安装以及ELK的联调记录1.Logstash安装[root@hadoop001 elk]# tar -xzvf logstash-6.0.0.tar.gz [root@hadoop001 elk]# cd logstash-6.0.0/[root@hadoop001 logstash-6.0.0]# lltotal 100drwxr

2017-12-03 16:12:25 677

原创大数据学习32：Nginx 的安装

Nginx 的安装 1.安装PCRE库[root@hadoop001 ~]# cd /usr/local/[root@hadoop001 local]# tar -zxvf pcre-8.36.tar.gz[root@hadoop001 local]# chown -R root.root pcre-8.36[root@hadoop001 local]# cd pc

2017-12-02 23:07:06 361

原创大数据学习31：Elasticsearch 6.0 和 Elasticsearch header 安装记录

Elasticsearch 6.0 和 Elasticsearch header 安装记录------------------------------hosts文件151.101.0.133 raw.githubusercontent.com192.30.255.112 github.com54.231.40.211 github-production-release-asset-2e

2017-12-02 21:53:09 4205

原创大数据学习30：Azkaban3.x 的 two server mode 部署

Azkaban two server mode 部署接着上次说到的编译，在编译好的目录中找到web 和 executor 。安装 azkaban-web-server解压：/opt/software/azkaban/azkaban/azkaban-web-server/build/distributionstar -xzvf azkaban-web-server-3.39.

2017-11-29 19:41:28 910

原创大数据学习29：Azkaban3.x的简单理解和单机安装

Azkaban 是一个任务调度框架简单易用易维护，存在任务间依赖关系处理的框架可以记录用户操作，做审计1、特性：Compatible with any version of HadoopEasy to use web UISimple web and http workflow uploads // key-valueProject workspacesS

2017-11-29 19:17:43 1285

原创大数据学习28：JAVA 连HBase的API小工具类

JAVA 连HBase的一个小工具类，主要为了记录和理解，实际使用的时候最好将main和其他类分开：package HBase_java_train;import java.io.IOException;import java.io.ObjectInputStream;import java.util.HashMap;import java.util.List;import java.uti

2017-10-31 15:44:13 525

原创 Linux 配置邮件：

Linux 配置邮件：qq邮件配置后会告警。。。。不建议用。。。。[root@hadoop002 ~]# echo 'hello!' | mail -s "hello test" 904333734@qq.com[root@hadoop002 ~]# smtp-server: 535 Error: 请使用授权码登录。详情请看: http://service.mail.qq.com/cgi-bin/

2017-10-30 23:06:01 4304

原创大数据学习27：Hive元数据清理，从mysql层面删除hive元数据

由于之前配置了hive，hdfs 被格式化了，导致现在hive上原来的元数据没有清理掉。由于hive 上所有元数据均保存在mysql中，所以，可以从mysql上删除表相关信息即可删除hive表，而且不会影响hdfs上数据。分析： hive在mysql上的相关元数据表关系图： Hive在mysql的元数据表的关系和含义这篇博文中有详细字段说明： http://blog.csdn.ne

2017-10-30 22:05:37 1631

原创 ORA-00257: archiver error. Connect internal only, until freed 解决办法，原因 redo log 无法切换

故障现象： plsql登陆发生报错 ORA-00257: archiver error. Connect internal only, until freed [oracle@dg1 ~]$ oerr ora 0025700257, 00000, "archiver error. Connect internal only, until freed."// *Cause: The arc

2017-10-29 23:41:01 2171

原创大数据学习26：关于HBase zookeeper 启动过程的一次剖析：

关于hbase zookeeper 启动过程的一次剖析：在做完一些配置后[root@hadoop002 conf]# vi hbase-site.xml <configuration> <property> <name>hbase.rootdir</name> <value>hdfs://hadoop002:8020/hbase</value> </property>

2017-10-29 14:44:33 1216

原创大数据学习25：Hive 中 distribute by 的测试

目标：测试 distribute by 的作用，希望针对user列，将不同的用户分配在不同的reduce中，方便后期计算。======================测试1：reduce 4个，按 length(user) 分配测试2：reduce 4个，按 substr(user,0,2) 分配测试3：reduce 4个，按 user 分配测试4：reduce 5个，按 user 分配测

2017-10-25 10:48:32 3025

原创 mysql 主从复制和主主复制配置

mysql 主从复制和主主复制配置按照单机模式去部署。在安装时，可能会遇到报错：启动mysql 报错[mysqladmin@dg2 ~]$ mysqlmysql: error while loading shared libraries: libmysqlclient.so.16: cannot open shared object file: No such file or director

2017-10-24 17:09:52 582

原创大数据学习24：hive_sql_累计求和小案例

环境： hive需求：输入数据，每天用户的流量分隔符 \t user date accesspanda 2017-1-01 5tgifshow 2017-1-01 3tyy 2017-1-01 2tlaifeng 2017-1-01 2tpanda 2017-1-02 5tgifshow 2017-1-02 3tyy 2017-1

2017-10-23 11:50:24 7157

原创大数据学习23：hadoop-2.6.0-cdh5.7.0 编译，支持 native 和 snappy

目标： hadoop-2.6.0-cdh5.7.0 支持 native 和 snappy，对于压缩需要对hadoop进行编译。检查部署耳朵cdh hadoop是否支持压缩[root@hadoop002 bin]# hadoop checknative -a步骤：之前安装需要的软件和调试，步骤省略：安装findbugs 并配置环境变量安装protobuf-2

2017-10-22 23:05:58 697

原创大数据学习22：Apache-Hadoop 2.8.1 集群部署

Apache-Hadoop 集群部署1、准备[root@hadoop001 software]# cat /etc/hosts192.168.137.11 hadoop001192.168.137.12 hadoop002192.168.137.13 hadoop003$HADOOP_HOME /opt/software/hadoopData $HADOOP_HOM

2017-10-22 22:42:18 398

原创大数据学习21：sqoop 语法和常用命令和小案例

1.1.0 sqoop 语法和常用命令 2.1.0 sqoop 典型用法 3.1.0 sqoop 的一个小案例 4.1.0 sqoop 的分区表导入导出======================================= 1.1.0 sqoop 语法和常用命令 hive导入参数　　--hive-home 重写$HIVE_HOME 　　--hive-import

2017-10-11 17:18:58 1187

转载大数据学习20：Maven 理解和 spark、hadoop、hive编译

一、Maven的一些含义：groupId定义了项目属于哪个组，这个组往往和项目所在的组织或公司存在关联。譬如你在googlecode上建立了一个名为myapp的项目，那么groupId就应该是com.googlecode.myapp，如果你的公司是mycom，有一个项目为myapp，那么groupId就应该是com.mycom.myappartifactId定义了当前Mav

2017-10-10 09:57:27 478

转载大数据学习19：hive元数据库一些查询和分区

有时根据需求，需要对hive中的表批量处理，这时可以到元数据库中进行一些查询操作，操作请慎重！！【mysql】1、查询某表的分区在Spark-sql查询hive表时，会由于元数据中文件与hdfs文件不一致而出现TreeNodeException的异常。比如说，在hive中show partitions时有分区pt=20160601，但是对应HDFS路径下并没有这个子文件夹时，在Spark-

2017-10-05 20:13:57 1338

原创大数据学习18：Hive在mysql的元数据表的关系和含义

在大数据中，很多情况下是将hive的元数据存放在mysql数据库中，通过hive配置的连接字符串： javax.jdo.option.ConnectionURL jdbc:mysql://localhost:3306/hive3?createDatabaseIfNotExist=true 能确认连

2017-10-05 19:39:33 1783

原创将自定义函数 helloUDF2 注册到hive 源码中，并且重新编译hive

环境: hive-1.1.0-cdh5.7.0 包放在了 /root 下面 cdh 采用 cdh5.7.0 目标：将自定义函数 helloUDF2 注册到hive 源码中，并且重新编译hive1、编写UDF (1)使用idea+maven，在maven中添加相关参数。重要的是 hadoop-common 、hive-exec 、hive-jdbc 以下为我的maven，文件头修改

2017-09-29 14:52:59 432

原创备份恢复- 完全恢复和不完全恢复

备份恢复恢复分为完全恢复和不完全恢复不完全恢复可以基于时间，也可以基于scn在测试的时候发现，恢复的节点必须在list backup中最大节点以后。【还要继续测试】0级 --> 操作（建表1） --> 想恢复的时间节点1 --> 0级 --> 想恢复的时间节点2 --> 操作（建表2） -->想恢复的时间节点3 --> 停库恢复会发现，无法恢复时间节点1，只能恢复0级以后的时

2017-09-28 22:56:39 1360

原创 11.2.0.4 oracle_rac 升级PSU 11.2.0.4.17

一、准备工作1，数据库环境操作系统版本 : CentOS 6.5 x64 数据库版本 : Oracle 11.2.0.4 x64 RAC Grid : 11.2.0.4 Oracle database: 11.2.0.42，准备内容GI PSU : p25476126_112040_Linux-x86-64.zip OPatch : p688

2017-09-27 22:48:32 1783

原创大数据学习15：报错 FAILED: SemanticException Unable to determine if

大数据学习15：FAILED: SemanticException Unable to determine if报错：由于修改了hdfs 的端口，导致报错，这里是因为使用UDF自定义函数，hive要将hfds上的jar传入分布式缓存中，并且mysql中元数据未修改导致。 hive (default)> select ename ,hello(ename) from emp; converting

2017-09-22 23:10:43 8102 1

原创 NFS挂载的安装部署和一些记录

NFS的基本概念：块大小mount命令的 risize和wsize指定了server端和client端的传输的块大小。如果没有指定，那么，系统根据nfs的版本来设置缺省的risize和wsize大小。大多数情况是4K（4096bytes），对于nfs v2，最大是8K，对于nfs v3，在server端设置risize和wsize的限制，最大块大小在kernel的

2017-09-21 18:50:22 818

转载 ORA-17503 ksfdopn2 Failed to open file .....

今天查看rac的目录发现，/oracle 用户和组不太对，然后用安装时的权限变更chown 和chmod 再刷了一遍，然后就悲剧了。发现集群crs 正常启动，has 正常，asm 正常，但是数据库打不开，报错如下ORA-01078: failure in processing system parametersORA-01565: error in identifying file '

2017-09-20 21:02:53 6677

转载大数据学习14：Hive中Join的原理和机制

Hive中Join的原理和机制转自:http://lxw1234.com/archives/2015/06/313.htm笼统的说，Hive中的Join可分为Common Join（Reduce阶段完成join）和Map Join（Map阶段完成join）。本文简单介绍一下两种join的原理和机制。Hive Common Join如果不指定MapJo

2017-09-19 15:52:55 571

原创大数据学习13：Hive的DML整理，查询走MapReduce还是走Fetch

Hive的DML整理：小问题：如何不通过访问meta data数据来获取我们指定表的字段hive> desc formatted emp; DML 加载数据：load关键字local 有：本地文件系统；没有：HDFS关键字filepath 文件路径关键字overwrite 有：覆盖；没有：追加关键字tablename：表名多次load overwr

2017-09-15 16:34:49 517

原创大数据学习12：Hive的整体框架和DDL整理

一、hive的框架hadoop是一个海量分布式存储和计算的框架，hdfs负责存储，yarn调度，MapReduce计算。相对于MapReduce编程的不足，产生了hive的框架：1）MapReduce繁琐：要写mapper，reducer，driver，package2）海量数据存放在hdfs，如何快速对hdfs上的文件进行统计分析操作。①学java，学mapr②DBA：s

2017-09-14 18:12:23 577

原创大数据学习12：Hive环境搭建

Hive环境搭建Hadoop生态圈软件下载地址：http://archive.cloudera.com/cdh5/cdh/5/==================================Hadoop部署 hadoop-2.6.0-cdh5.7.0.tar.gzHive部署 hive-1.1.0-cdh5.7.0.tar.gz需要有java需要已经部署好mysql

2017-09-14 08:59:45 335

空空如也

空空如也