自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(31)
  • 资源 (9)
  • 收藏
  • 关注

原创 logstash脚本抽取数据到es或kafka,上

logstash从oracle抽数据到kafkainput { jdbc { jdbc_driver_library => “ojdbc6-11.2.0.3.0.jar 插件的” jdbc_driver_class => “Java::oracle.jdbc.OracleDriver” ...

2018-08-31 15:31:50 2766 2

原创 spark从oracle读取数据写到hbase

package com.analysisimport java.sql.DriverManager import java.text.SimpleDateFormatimport org.apache.hadoop.hbase.client.Put import org.apache.hadoop.hbase.io.ImmutableBytesWritable import org....

2018-08-29 11:31:01 1828 1

原创 elasticsearch 9200端口登录认证方案

elasticsearch 9200端口如果不实现登录认证,可能会出现数据被盗,数据丢失的风险。下面是如何对elasticsearch进行登录认证: . elasticsearch关于9200端口实现登录验证 解决办法:在elasticsearch安装x-pack插件,在elasticsearch配置文件中添加 : xpack.security.enabled: true http.c...

2018-07-23 14:29:46 19511 5

原创 elasticsearch慢查询监控优化策略

监控目标 1. 在elasticsearch配置文件上添加慢查询日志和慢索引配置 2. 使用kibana监测elasticsearch慢查询日志的生成,使用logstash抽取日志的方式,有慢查询日志生成,就以邮件告警的方式提醒。 3. 使用zabbix分别监控集群的状态、CPU、进程数、磁盘读写性能、JVM使用。同时还要监控elasticsearch中分片的状态。达到某个临界值,就以...

2018-07-23 14:16:44 3383 1

原创 maven整合SSM搭建项目

Maven整合SSM搭建项目目录一、概要.21.1 Maven21.1.1 Maven的基本概念.21.1.2 Maven的核心概念.21.1.2 Maven的目标.51.1.3 Maven的常用命令.51.2 Spring61.2.2  Spring的特点与优点.81.3 Spring MVC101.3.1 SpringMV

2018-01-11 11:15:42 640

原创 oracle资源检查

一、查询执行最慢的sqlselect *from(selectsa.SQL_TEXT,sa.SQL_FULLTEXT,sa.EXECUTIONS"执行次数",round(sa.ELAPSED_TIME / 1000000, 2)“总执行时间”,round(sa.ELAPSED_TIME / 1000000 / sa.EXECUTIONS, 2)“平均执行时间”,sa.COMMAND_...

2020-01-15 10:29:49 234

原创 常用的Linux shell命令

输出日志到log文件中nohup sh test.sh>history.log 2>&1 &

2019-07-09 17:09:51 228 1

原创 hbase 常用的shell 命令

hbase 查询通用shell命令(>=意思为包含,=意思是等于)1.按family(列族)查找,取回所有符合条件的“family”:scan ‘scores’, {FILTER => “FamilyFilter(<=,‘binary:grc’)”}或者scan ‘scores’, {FILTER => “FamilyFilter(<=,‘binary:g...

2019-07-04 15:30:05 676

原创 kylin cube 创建

1.1.1 新建一个项目1.1.1.1 由顶部菜单栏进入Query页面,然后点击左上角的加号按钮新建一个project。1.1.1.2 选择自己要定义的项目名1.1.1.3 创建成功后会出现成功的弹窗通过以上的步骤一个新的project创建成功。1.1.2 同步一张表1.1.2.1 选择自己新建的项目名1.1.2.2 导入需要的数据库表在这里运用到的是hive作为数据源...

2019-06-27 16:03:28 203

原创 azkaban安装配置和使用

Azkaban用户操作手册目录环境搭建 21.1 安装准备 21.1.1 环境准备 21.1.2下载镜像 21.1.3 编译tar包 31.1.4 拷贝压缩包到/opt目录上 31.1.5 解压缩 31.1.6 数据库安装 31.1.7 数据库配置(mysql) 31.2 solo模式搭建 41.2.1 修改配置参数 41.2.2 solo模式启动 41.3 集群...

2019-06-27 13:38:30 1541

原创 spark程序在集群和本地运行命令

1.先找maven projects,然后在项目的目录进行clean,然后在install。把打包上来的程序放到服务器上。然后在执行(在本地执行local)/usr/hdp/2.6.0.3-8/spark2/bin/spark-submit –master local –class cn.com.zoesoft.bigdata.ihr.brain.tool.tags.Hypertensio...

2019-06-11 15:17:12 873

原创 sh文件定时删除hbase表中的数据

1.先在系统中建一个txt文件;vi test.txt然后在test文件中添加要执行的hbase shell语句truncate testexit(hbase 命令执行后不会自动退出,所以执行exit 这个命令强制退出)2.新建一个.sh文件vi test.sh然后在.sh文件中写入hbase shell /root/test/test.txt(后面的地址要详细的文件地址)然后...

2019-06-11 15:10:29 987 4

原创 sqoop抽取数据到hive上

sqoop在抽取数据到hive上的时候首先要建立hive内部表hive 启动命令:$HIVE_HOME/bin/hivehive 退出命令:quit;hive 创建hbase内部表:其中sehr是创建表时的表空间。create table sehr.outpatient(last_update_dtime string,org_code st...

2019-03-13 08:50:26 1384

原创 sqoop抽取数据到hbase上

jdbc:oracle:thin:@//192.168.3.94/xmhealthy 指的是数据库 jdbc连接的IP和数据库实例名username cmmi --password cmmi 指的是数据库的用户名和密码query " " 中间是oracle数据库查询语句where 1 = 1 因为抽取语句中有and出现 而oracle查询语句 没有where 条件存在的话就要写上 w...

2019-02-18 10:17:38 859

原创 hive创建hbase外部表

hive 启动命令:$HIVE_HOME/bin/hivehive 创建hbase外部表:ihr_pes为hive表名:CREATE EXTERNAL TABLE ihr_pes(id string comment “hbase rowkey”,identity_no string comment “身份证号”,org_code string comment “医院编号”,patie...

2019-02-12 11:15:05 4819

原创 elasticsearch常用查询语句

复制索引数据到另外一个索引中:POST _reindex{“source”: {“index”: “ihr-baseinfo”},“dest”: {“index”: “songmingqi-test”}}删除索引中全部数据:POST songmingqi-test/baseinfo/_delete_by_query?conflicts=proceed{“query”: {...

2019-01-03 09:42:32 750

原创 java读取Excel文件写入到elasticsearch

测试用例用了springboot 框架了spring-data-elasticsearch框架。有感兴趣的可以写一下实体类@JsonIgnoreProperties(ignoreUnknown = true)@Document(indexName = “test-smq”, type = “test”, refreshInterval = “1s”, createIndex = false)...

2018-12-21 10:23:34 3301 3

原创 Spark 读取elasticsearch数据

最近在搞大数据的时候,遇到一个案例。之前的一些数据是设置死的。现在要改成动态读取es上的数据,然后在进行处理,就写了这么一个读取elasticsearch索引数据的例子object SparkReadFromES {def main(args: Array[String]): Unit = {val conf = new SparkConf().setAppName("DecisionTre...

2018-12-18 11:01:32 3611

原创 hbase常用shell命令

hbase建表:create 'test:medication', {NAME=&amp;amp;amp;amp;gt;'p'}其中test是表空间,hbase表名是medication,列族是p添加数据: put 'test:medication','2','p:ICD_CODE','B23'向hbase中添加数据,rowkey是2查询前几条数据:scan 'test:medication',{LIMIT=...

2018-11-02 09:13:59 230

原创 spark 连接flume传输数据

1,编写FlumePushWordCount运行程序,启动监听端口88662. cd /usr/share/flume,编写脚本其中,在/usr/data.txt是一个空文件写脚本data.sh然后先运行flume-ng agent -c conf -f conf/flumesparktest.conf -n agent -Dflume.root.logger=INFO,con...

2018-11-01 15:34:42 490

原创 spark从hbase中读取数据处理后写入hbase中

spark读取hbase中的数据,做数据处理后,利用插件写入到hbase中package cn.com.zoesoft.bigdata.ihr.brain.tool.infectiousimport org.apache.hadoop.hbase.HBaseConfigurationimport org.apache.hadoop.hbase.client.Resultimport org...

2018-10-29 11:16:20 1224 1

原创 Phoenix + SQuirreL基本使用操作hbase

Phoenix + SQuirreL基本使用概述Phoenix是对HBase的扩展。目标是使用SQL操作HBase,包括DDL、DML、DQL等,Phoenix不仅能够使用SQL语句操作HBase,而且支持Join等高级特性。SQuirreL是一个SQL客户端,类似于Navicat,但它支持的协议比Navicat多得多,而且可以提供驱动扩展,Phoenix为HBase提供了SQuirreL插...

2018-10-26 14:24:49 931

原创 Hadoop 集群安装

Hadoop集群安装概述集群cluster,将很多任务进程分布到多台计算机上;通过联合使用多台计算机的存储、计算能力完成更庞大的任务。为了实现无限量的存储和计算能力,在生产环境中必须使用集群来满足需求。总体步骤基本步骤安装JDK,配置JDK环境变量安装Hadoop,配置Hadoop环境变量,配置Hadoop组织并在集群中分发文件注意:如果使用克隆方案,克隆后需修改主机名及IP...

2018-10-08 17:04:19 134

原创 oracle 导出、导入DMP格式的文件

打开cmd,然后执行下面语句exp seh(用户名)/”“”Ipp@sscryp(密码)”“”@SMJK(实例名) file=C:\Users\Administrator\Desktop\daochu\sehr_xman_ehr_3 tables(导出的位置)=(sehr_xman_ehr_3(要导出的表名)) query=\”where xman_id in ()\”(括号内是条件)...

2018-09-17 10:04:29 191

原创 oracle 查询、删除重复数据

根据oracle数据库中的主键确定重复的数据有哪些select XMAN_ID, EVENT, CATALOG_CODE, SERIAL(主键字段名) from sehr_xman_ehr_2(表名)GROUP BY XMAN_ID, EVENT, CATALOG_CODE, SERIAL(主键字段名) having count(*)&amp;amp;amp;gt;1;查询到有重复的数据就可以按照字段删...

2018-09-14 16:55:45 387

原创 spark SQL操作json数据

package hbaseimport org.apache.spark.sql.{SaveMode, SparkSession}/** * Created by songmingqi on 2018/9/4 * 数据类型 * {“name”:”Signal”,”age”:15} * {“name”:”May j Lee”,”age”:20} * {“name...

2018-09-05 11:29:09 883

原创 spark SQL简单的案例

package hbaseimport org.apache.hadoop.hbase.HBaseConfiguration import org.apache.hadoop.hbase.client.Result import org.apache.hadoop.hbase.io.ImmutableBytesWritable import org.apache.hadoop.hbase...

2018-09-04 15:22:19 375 1

原创 kafka调优

利用多磁盘并发读写,保证每个磁盘连续读写的特性。 具体配置上,是将不同磁盘的多个目录配置到broker的log.dirs,例如 log.dirs=/disk1/kafka-logs,/disk2/kafka-logs,/disk3/kafka-logs。 JVM参数配置: 设置垃圾回收器。推荐使用最新的G1来代替CMS作为垃圾回收器。 Broker中的JVM参数设置如下: -Xms3...

2018-07-31 17:03:37 442 1

原创 MapReduce集群设置与开发环境配置

MapReduce集群设置与开发环境配置MapReduce集群概述       MapReduce运行在Hadoop集群上。但MapReduce是通过另外一批进程来运行的。HDFS的进程名是NameNode、SecondaryNameNode和DataNode;而MapReduce的进程名(可以通过JPS命令查看)是:       ResourceManager:数据计算资源的总体

2018-01-12 11:36:33 957

原创 eclipse安装Hadoop插件

Hadoop-eclipse插件第一部分释放Hadoop安装包       将hadoop-2.7.4.tar.gz解压到特定位置,如E:\bigdata\hadoop-2.7.4       注意:里面不能再套hadoop文件夹安装Hadoop-Eclipse插件       将Hadoop-Eclipse(hadoop-eclipse-plugin-2.7.3.jar)

2018-01-12 11:30:00 235 1

原创 安装Hadoop生态圈是遇到的问题

yum配置不通:vi /etc/resolv.conf更改DNShadoop:hadoop的根目录下的logs文件夹下的以.log结尾的文件文件组成:hadoop-用户名-启动节点-主机名.log找到挂掉的节点名称和对应主机,打开日志找错namenode消失:查看日志,发现上面提示namenode的ID信息和datanode的ID信息不一致解决方案:1.找到

2018-01-04 15:39:54 343

Ambari部署大数据环境文档

基于Ambari部署大数据开发环境的文档,可以部署成单节点的,也可以配置多节点的,Ambari能刚好的监测集群运行的健康状态,

2018-07-16

zabbix监控es端口号邮件提醒配置

本文从设置sendmail脚本,到zabbix web端,配置报警媒介,web监测,设置新的触发器。对于新人来说,完全可以配置自己的一套

2018-06-28

spark自定义分区以及写了一个例子,对文件进行处理

用spark自定义了一个分区,并且写了一些数据!写了一个scala类,进行测试!里面备注详细,对于初学者来说是一个不错的例子!

2018-01-12

eclipse安装Hadoop插件

Hadoop在eclipse上面安装插件,以及对Hadoop jar包和hadoop-common jar包的安装,环境变量的配置

2018-01-12

scala API 操作hbase表

最近看了hbase的源码根据源码写了一些scala调动hbase表的API,话不多说直接上代码!Hadoop的版本是2.7.3,scala版本是2.1.1,hbase的版本是1.1.2 如果版本不同可以修改pom的依赖项,但要注意版本冲突。 并且在scala,maven项目中,还有创建一个resources包(这个网上多的是)主要是放core-site,xml和hdfs-site.xml以及hbase-site.xml

2018-01-11

Hadoop扩容

Hadoop存储容量或计算能力不能满足日益增长的需求时,就需要扩容。 扩容有两个方案: 1) 增加磁盘 2) 增加节点

2018-01-11

IDEA创建maven项目

idea创建maven项目的详解,还有需要删除配置文件,创建模板

2018-01-03

scala和spark的安装

scala和spark的安装和配置,以及启动spark,分发节点。

2018-01-03

Linux下Hbase和zookeeper的安装和部署

在Linux虚拟机下的Hadoop集群上配置和安装hbase和zookeeper,

2018-01-03

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除