大数据工具
文章平均质量分 74
小钻风巡山
咸鱼即将翻身
展开
-
es的http请求语法
elasticsearch 请求协议http协议get请求http://bigdata01:9200curl请求协议curl -XGET 'http://bigdata01:9200/path?query' -d 'body'path 表示api的终端路径,他包含多个组件原创 2021-03-18 18:02:01 · 3143 阅读 · 2 评论 -
streaming 并行度设置
SparkStreaming并行度属性设置spark.streaming.blockInterval:该属性是对BatchInterval的进一步细化切分。将一个BatchInterval的数据喜欢切分成更小的block,一个block对应一个Spark Partition。BatchInterval的数据对应RDDblockInterval的数据对应RDD中的Partition所以SparkStreaming中Partition的数量公式如下:Partition个数 =..转载 2020-10-28 11:24:57 · 308 阅读 · 0 评论 -
sqoop
sqoop使用hsql来存储job信息,开启metastor service将job信息共享,所有node上的sqoop都可以运行同一个job一、sqoop的配置文件在sqoop.site.xml中: 1、sqoop.metastore.server.location 本地存储路径,默认在tmp下,改为其他路径 2、sqoop.metastore.server.port metastore service端口号 3、sqoop.met...原创 2020-09-01 14:57:25 · 505 阅读 · 1 评论 -
Flink流式计算 单词统计程序与任务管理
1.首先安装nc用于制造实时数据下载地址https://eternallybored.org/misc/netcat/360会提示这个文件有病毒,会自动隔离这个文件,恢复文件后才能通过端口发送实时数据,恢复后解压文件2.启动nc没有配置环境可以直接指定nc.exe直接启动nc发送数据配置过环境变量使用直接使用nc启动3. 编写flink代码pom坐标 <dependencies> <dependency>...原创 2020-07-22 15:08:37 · 650 阅读 · 0 评论 -
spark 性能调优
转自:https://www.cnblogs.com/jcchoiling/p/6440709.html核心调优参数如下: 1 2 3 4 5 6 7 num-executors executor-memory executor-cores driver-memory spa...转载 2019-06-10 14:09:35 · 232 阅读 · 0 评论 -
kafka集群与javaApi
kafk集群搭建 javaApi 自定义分区 指定分区消费 web监控工具 Kraft集群部署原创 2019-06-24 19:28:12 · 10117 阅读 · 1 评论 -
JAVA Excel读写
pom 依赖<dependency> <groupId>org.apache.poi</groupId> <artifactId>poi</artifactId> <version>3.16</version></dependency><dependency...原创 2019-07-04 14:21:19 · 350 阅读 · 1 评论 -
网络io监控与带宽测试
Linux中查看网卡流量工具有iptraf、iftop以及nethogs等,iftop可以用来监控网卡的实时流量(可以指定网段)、反向解析IP、显示端口信息等。centos安装iftop的命令如下:yum install iftop -y复制代码常用参数说明:-i设定监测的网卡,如:iftop -i eno1复制代码其中eth1是服务器的公网网卡,网卡名称可以通过ifco...原创 2019-08-07 18:50:28 · 1442 阅读 · 0 评论 -
Flume运维
Flume使用与监控原创 2018-08-08 10:30:40 · 4071 阅读 · 1 评论 -
ElasticSearch 的增删改查
1.导入对应版本的依赖<dependency> <groupId>org.elasticsearch</groupId> <artifactId>elasticsearch</artifactId> <version>5.2.2</version></dependency>&...原创 2018-09-29 14:48:21 · 786 阅读 · 1 评论 -
hbaseApi-0.98/2版本的api
安装1. 下载hbase地址 http://mirrors.hust.edu.cn/apache/hbase/ 选择对应的版本 需要安装jdk与hadoop2. 添加jdk,zookeeper,hadoop,hbase环境变量#JDKexport JAVA_HOME=/usr/local/src/jdk/jdk1.8.0_144export CLA...原创 2018-07-12 17:45:17 · 218 阅读 · 0 评论 -
logstash采集数据配置示例
采集配置创建配置文件,编写内容 1.采集目录的数据 input { file { type => "my_type" 类型 path => "/root/data/1.txt"...原创 2018-07-12 17:39:15 · 6187 阅读 · 1 评论 -
es集群搭建部署
Elasticsearch的搭建1.部署方式,三台服务器,命名ip为mini1,mini2,mini3 ; mini1为主节点 下载Elasticsearch安装包解压后进入conf目录修改elasticsearch.yml文件配置文件mini1 cluster.name: my-es ...原创 2018-07-12 17:12:01 · 4909 阅读 · 1 评论 -
MapReduce-Demo与调优
1.POM定义 <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xs...原创 2018-10-05 22:55:25 · 166 阅读 · 0 评论 -
hbase合并文件脚本与shell操作
1.创建命令脚本compact.sh写入内容:#!/bin/bashtime_start=`date "+%Y-%m-%d %H:%M:%S"`echo "开始进行HBase的大合并.时间:${time_start}"str=`echo list | hbase shell | sed -n '$p'`#str="a,b,c"str=${str//,/ }arr=($str...原创 2018-12-17 14:51:02 · 809 阅读 · 0 评论 -
sparkStreaming流式处理
1.下载nc造假数据(生产者) yum install -y nc2.往指定端口发送数据 nc -lk 99993.编写sparkStreaming程序(1.6版本)引入依赖2.11表示scala版本 1.6.1表示spark版本<dependencies> <dependency> <groupId>org....原创 2019-02-27 23:08:52 · 172 阅读 · 0 评论 -
hbase性能调优
1.HBase客户端优化和大多数系统一样,客户端作为业务读写的入口,姿势使用不正确通常会导致本业务读延迟较高实际上存在一些使用姿势的推荐用法,这里一般需要关注四个问题:1.1. scan缓存是否设置合理?优化原理:在解释这个问题之前,首先需要解释什么是scan缓存,通常来讲一次scan会返回大量数据,因此客户端发起一次scan请求,实际并不会一次就将所有数据加载到本地,而是分成多次RP...原创 2019-02-28 15:39:51 · 654 阅读 · 0 评论 -
hbase过滤器自定义
1. 下载protobuf-2.5.0解压,如果是window下,额外下载protoc-2.5.0-win32,解压,将protoc.exe放在protobuf-2.5.0下的src目录下2. 配置环境变量,添加path路径指向protobuf目录的src中3. 查看当前版本,在命令提示符中输入命令4. 创建一个空白的文本文件 命名为 CustomNumberCompara...原创 2018-07-12 17:44:15 · 2432 阅读 · 0 评论