大数据
文章平均质量分 77
健康平安的活着
再给我一次重生的机会,我将加倍珍惜,将java事业进行到底。
展开
-
Flink 学习一
一 flink的概念1.分布式的 计算引擎2.支持 批处理 ,即处理静态的数据集、历史的数据集 3.支持 流处理 ,即实时地处理一些实时数据流4.支持 基于事件 的应用【比如说滴滴通过 Flink CEP 实现实时监测司机的行为流来判断司机的行为是否正当】官网地址: https://flink.apache.org/ 二 flink的架构2.1...原创 2022-01-09 11:47:06 · 819 阅读 · 0 评论 -
spark实现word count程序
5.1 使用scala 实现wordcount程序object WordCount { def main(args:Array[String]): Unit ={ //1.创建sparkConf对象,设置appName和master地址,local[2]表示本地采用2个线程去执行 val sparkConf:SparkConf=new SparkConf().setAppName("wordCount").setMaster("local[2]") //2..原创 2020-05-30 19:03:33 · 490 阅读 · 0 评论 -
spark shell 执行命令
4.2.1通过spark-shell --master local[N] 读取本地数据文件实现单词统计--master local[N]Local表示本地运行,跟集群没有任何关系,方便做一些测试和学习。N表示一个正整数Local[N]表示本地采用N个线程去运行任务Spark-shell --master local[2] 它会产生一个spark submit 进程Spark-shell --master local[2] Sc.textFile(“file:///root/wo.原创 2020-05-30 15:00:22 · 863 阅读 · 0 评论 -
spark的组件组成部分介绍
1.Driver它会运行客户端写好的main方法,并且它会创建sparkcontext对象,该对象是所有spark程序的执行入口。2.Application它就是一个应用程序,它包括了Driver端的代码逻辑和任务在执行的时候需要的资源信息。3.clusterManager :它既是给当前任务提供计算资源的外部服务 standAlone 它是spark自带的集群模式,整个任务的资源分配由master负责 Yarn Sp...原创 2020-05-30 14:58:07 · 5337 阅读 · 0 评论 -
HBASE的集群搭建
4.1描述Hbase集群依赖hdfs,安装hbase集群,确保有hadoop集群,hbase启动之前确保hadoop已经启动。启动顺序:zk------------hadoop(hdfs-yarn)------hbase关闭顺序:hbase-------hadoop(yarn-hdfs)--------zk!!!!安装hbase之前确保已经安装haoop和zk4.2 hbase集群规划4.3 上传tar包4.4 解压tar包[root@meboth-maste..原创 2020-05-23 20:03:47 · 3871 阅读 · 0 评论 -
es 5.x 版本使用srcoll scan解决数据太大,分页报错的问题
@Override public Page<RealTimeMonitorDomain> querySimlarInfoList(int pageSize, int page, String groupId,String id) { //1.初始化条件 NativeSearchQueryBuilder nsb = new NativeSear...原创 2020-03-09 19:42:12 · 381 阅读 · 0 评论 -
hive与hbase的整合
Hive提供了与HBase的集成,使得能够在HBase表上使用HQL语句进行查询 插入操作以及进行Join和Union等复杂查询、同时也可以将hive表中的数据映射到Hbase中。1.1hive整合hbase的搭建配置说明:Hive是单节点,hbase为集群修改hive-site.xml文件,添加zookeeper配置<!--hive整合hbase --><...原创 2019-06-19 10:58:10 · 990 阅读 · 0 评论 -
hive 可视化组件Dbeaver的安装
一.修改hadoop配置文件修改core-site.xml文件内容:(如果集群的话每个都要修改)<!-- 远程访问 --><property> <name>hadoop.proxyuser.www.hosts</name><value>*</value><...原创 2019-06-14 19:29:26 · 888 阅读 · 0 评论 -
hadoop的之 hdfs
HDFS概述1.1 各节点的作用Hdfs:采用主/从结构对文件系统进行管理,namenode分布在主节点上,datanode分布在从节点上;Namenode:相当于一个leader,负责资源调度,当用户上传一个640m的文件,按64m为单元进行分块,然后分布在集群的数据节点上。当用户查询时候namenode从数据节点从取出。存储的元信息:文件的名字,大小,修改时间等。Datano...原创 2019-06-19 19:11:25 · 306 阅读 · 0 评论 -
hive的java api 操作
首先需要实现hive能够远程访问:配置见https://blog.csdn.net/u011066470/article/details/91998651Java代码:package com.meboth.hive.connection.hbase.utils;import java.sql.*;/** * @className JDBCToHiveUtils * @De...原创 2019-06-19 19:19:09 · 1890 阅读 · 0 评论 -
解决hbase的 count计数的问题
当进行hbase数据统计的时候,报错:org.apache.hadoop.hbase.exceptions.UnknownProtocolException: org.apache.hadoop.hbase.exceptions.UnknownProtocolException: No registered coprocessor service found for name Aggregat...原创 2019-06-26 10:17:36 · 3634 阅读 · 0 评论 -
hbase的java api实现crud操作
1.1 解决无法找到winutils.exe的错误解决windows中运行报错,无法找到winutils.exe的错误。#1.将hadoop的tar包解压到f盘:#2找到和使用hadoop最接近的版本hadoop-common-xxx-bin的软件包#3.解压后将bin文件夹下的所有文件复制到第一步hadoop版本的bin目录下:建议重复的文件选择不覆盖#在...原创 2019-06-24 14:50:53 · 432 阅读 · 0 评论 -
hadoop 2.x 各个配置文件的作用
原创 2019-06-01 17:40:37 · 366 阅读 · 0 评论 -
Hadoop2.x 各个组件的介绍
一.Hadoop2.x的概述分布式就是由多台机器协同来完成的任务。Hadoop提供的服务主要是两个:分布式存储,以及分布式计算。Hadoop的分布式系统,都采用Master-Slave的主从模式,在这样的模式下,分布式存储系统(HDFS)的主节点,是NameNode。分布式资源管理系统(Yarn)的主节点,是ResourceManager。可以很粗的理解为:HDFS...原创 2019-06-01 15:54:48 · 3973 阅读 · 0 评论 -
spring boot 2.x 以上+spring data+es没有findone方法的处理
一、 描述springboot 2.x以后,根据id查询一条数据,就不能再使用findone方法了,变成了findbyid:本人总结了几种方法如下:1.使用respository仓库类: /** * 通过id的查询 * @param id * @return */ //根据id查询一条数据(2.0后不能使用findOne了),ht...原创 2019-05-29 09:41:49 · 608 阅读 · 0 评论 -
hadoop 2.x 各种端口的说明
一.HDFS二.YARN三.HBASE四.Hive五.secondnarynamenode六.zookeeper原创 2019-05-31 19:13:12 · 236 阅读 · 0 评论 -
zookeeper详解
一. zookeeper的角色1.leader:领导者负责进行投票的发起和决议,更新系统状态;2.learner:Fllower:跟随者用于接收客户请求并向客户端返回结果,在选举过程中参与投票。Observer:观察者可以接收客户端连接,将写请求转发给leader节点,不参与投票,只同步leader的状态。3.客户端:发起请求。二.操作数据的流程...原创 2019-05-27 09:13:03 · 495 阅读 · 0 评论 -
Es中查询数据存在某个字段或者数据的不存在某个字段(must_not,must的使用)
一.存在:二.不存在:原创 2019-05-09 09:36:35 · 41163 阅读 · 0 评论 -
Springboot-data-es的集成demo
第一章概述1.1概述本项目整合了springboot 2.1.4与spring-data ,es的集成。实现简单的添加、查询操作。使用的方式主要有两种:1.一种是经过SpringData封装过的,直接在 dao 接口继承 ElasticsearchRepository 即可2.一种是经过Spring封装过的,直接在 Service/Controller 中引入该 El...原创 2019-05-08 19:35:56 · 4473 阅读 · 0 评论 -
springboot -springdata-es 集成版 java api 操作大全
/** Copyright 2014-2016 the original author or authors.** Licensed under the Apache License, Version 2.0 (the "License");* you may not use this file except in compliance with the License.* Y...原创 2019-05-08 18:14:18 · 957 阅读 · 0 评论 -
linux shell 命令 echo中输出变量
脚本文件:test.sh#!/bin/bashanalysis_date=$1#开始执行方法function start(){for str in 0doecho 'str:${str}'echo 'str:'${str}''echo "str:${str}"echo 'str:'${str}echo 'canshu:'${analysis_date}ec...原创 2019-07-08 16:28:42 · 62129 阅读 · 0 评论 -
shell脚本中写hive的sql语句
2.3shell脚本中写hive语句2.3.1test.sh脚本内容#!/bin/bashanalysis_date=$1#开始执行方法#/opt/hive-2.3.5/bin/hive -e "select count(1) from hv_orders_user_buckets"echo"输入的参数变量为:$analysis_date"hive -e "u...原创 2019-07-09 16:55:15 · 5614 阅读 · 0 评论 -
hive的“坑笔记“----------------------进入hive命令模式,卡主不动的解决方案
今天,上班后,进入hive模式,输入hive的sql命令,光标一直在闪烁,没有回显结果,重新启动集群也无济于事,折腾了一上午,中午午休,灵感上来之后,查看一下是否能ping通hive元数据库所在的mysql服务器,是否ping通,结果发现,ping不同,然后咨询运维,麻蛋,他们给做了限制,hive访问不了元数据库所在的服务器导致的。之后让他们放开,ok了,见下图:...原创 2019-08-09 09:21:15 · 2396 阅读 · 0 评论 -
Hbase 的弊端 按时间段范围查询(三)
假设:Rowkey设计为:rowkey=分区号(userId的最后一位+补充0,组成两位数)-注册时间的时间戳(13位)-u+userId(按千万量计算,加前缀u,共6位)现在要查询出时间段:1564647622838 到1564647622938 这个时间段的数据#方案一:采用过滤器 无法单纯通过这个时间段查询数据#方案二:设置startRow,endRowstart...原创 2019-08-02 10:52:53 · 7863 阅读 · 0 评论 -
hbase中预分区表中数据的查询(二)
在上一遍博文中介绍了创建创建预分区,并实现添加数据操作,本篇博文,介绍不同角度的查询1.按范围查询 /** * scan 设置时间范围查询 * @param hTable * @throws IOException */ private static void scanByRangeQuery(Table hTable,String ...原创 2019-08-01 19:27:41 · 1473 阅读 · 2 评论 -
Hbase-RowKey Filter详解
RowFilter是用来对rowkey进行过滤的,比较符如下:相关的过滤方法使用:提取rowkey以01结尾数据Filter filter = new RowFilter(CompareFilter.CompareOp.EQUAL,new RegexStringComparator(".*01$"));提取rowkey以包含201407的数据Filter filter = new ...原创 2019-08-01 18:52:47 · 2793 阅读 · 0 评论 -
hbase 的Rowkey设计方案
1.1hbase的概述HBase由于其存储和读写的高性能,在OLAP即时分析中越来越发挥重要的作用。作为Nosql数据库的一员,HBase查询只能通过其Rowkey来查询(Rowkey用来表示唯一一行记录),Rowkey设计的优劣直接影响读写性能。由于HBase是通过Rowkey查询的,一般Rowkey上都会存一些比较关键的检索信息,我们需要提前想好数据具体需要如何查询,根据查询方...原创 2019-08-05 19:14:31 · 4765 阅读 · 0 评论 -
hbase 存储乱码的问题--解决方案
最近在将一些数字型的数据转成字节后存储到hbase中,出现了乱码问题,如下: public byte[] nextId() { try { long partitionId = currentId % partition; return Bytes.add(Bytes.toBytes(partitionId), ...原创 2019-08-05 09:38:52 · 4184 阅读 · 0 评论 -
hbase 常用过滤器filter--------------------------有这篇文章就够了,舍我其谁!!!!
目录1.1过滤器的作用1.2rowkeyFilter1.3prefixfilter1.4firstKeyOnlyFilter1.5valueFilter1.7keyonlyFilter1.8randomRowFilter1.9inclusiveStopFilter1.10columnPrefixFilter1.11columnCou...原创 2019-07-23 17:15:33 · 542 阅读 · 1 评论 -
flume的项目实现自定义sink的输出端
详细的flume工程代码见百度网盘:实现的功能:监听某个文件的最新输入,让后将其输入到制定文件中。#配置文件:push.conf # Name the components on this agent a1.sources = r1 a1.sinks = k1 a1.channels = c1 # Describe/configure the...原创 2019-07-06 18:34:47 · 586 阅读 · 0 评论 -
flume 监控目录文件,将内容定时输入到hdfs上
3.3.1 编写脚本文件:tohdfs.conf#定义agent名, source、channel、sink的名称a4.sources = r1a4.channels = c1a4.sinks = k1#具体定义sourcea4.sources.r1.type = spooldira4.sources.r1.spoolDir = /opt/rh#具体定义chann...原创 2019-07-06 18:29:56 · 603 阅读 · 0 评论 -
flume1.9.0的安装
2.1flume的安装flume的tar包下载地址: http://flume.apache.org/download.html2.1.1上传flume的tar包2.1.2解压[root@meboth-master opt]# tar -zxvf ./installsoftpackagedir/apache-flume-1.9.0-bin.tar.gz -C /o...原创 2019-07-06 15:49:37 · 934 阅读 · 0 评论 -
flume学习一:flume基础知识
一.Flume使用的前提:Flume使用 java编写,其需要运行在 Java1.6或更高版本之上。二.Flume的定义:Flume是一个分布式、可靠、高效可用的海量日志采集、聚合和传输系统,支持在系统中定制各类数据发送方,用于搜集数据;同时,flume提供对数据进行加单处理,并写到各种数据接受方(可定制)的能力。核心一句话:将数据从数据源收集过来,再送到目的地。为了保证输送一...原创 2016-05-30 09:45:17 · 11215 阅读 · 3 评论 -
hadoop 生态圈组件的启动与关闭
机器部署说明:/*****************************************虚拟机中hadoop组件启动顺序:************************************/1.在100,101,102分别启动 zk zkServer.sh start 2.在100上启动hdfs start-dfs.sh 3.在101上启动yarn...原创 2019-07-11 09:54:41 · 268 阅读 · 0 评论 -
将mysql表中数据导入到hive分区事务桶表
3.1.1逻辑描述1.删除hv_orders_user_buckets表中对应分区的数据2.按指定日期从mysql中的数据库查询数据orders0-9和orders_user0-9表的数据导入到hive中的hv_orders_user表指定的分区中。Hv_orders_user是一个分区表,不具有事务3.将hv_orders_user表中的数据按分区导入到hv_orders_user...原创 2019-07-10 17:21:17 · 758 阅读 · 0 评论 -
hive报Can't call rollback when autocommit=true
报:Error rolling back: Can't call rollback when autocommit=true报:hive-site.xml设置为false;原创 2019-07-09 17:01:22 · 2376 阅读 · 0 评论 -
centos7.0中安装单机版es6.2.3 head插件
一.介绍 head插件head插件是用node.js开发的所以需要此环境简单的说 Node.js 就是运行在服务端的 JavaScript。Node.js 是一个基于 Chrome V8 引擎的 JavaScript 运行环境。Node.js 使用了一个事件驱动、非阻塞式 I/O 的模型,使其轻量又高效。Node.js 的包管理器 npm,是全球最大的开源库生态系统。二.下载软件包no...原创 2019-04-25 16:47:02 · 599 阅读 · 0 评论 -
es 6.x 实现使用scroll 实现查询海量数据分页
#第一步:调用 public Integer getDailyLeaseBike3(OperateAreasBo operateArea, String type, String type1, Long stime, Long etime, String queryDateField) { BoolQueryBuilder boolQueryBuilder = crea...原创 2019-05-05 17:04:51 · 1789 阅读 · 0 评论 -
hadoop 启动 报running beyond virtual memory错误的解决
报错日志:[2019-01-04 11:05:50.749]Container [pid=7247,containerID=container_1546564651505_0001_01_000002] is running 219036160B beyond the 'VIRTUAL' memory limit. Current usage: 37.6 MB of 1 GB physical...原创 2019-01-04 14:48:11 · 865 阅读 · 0 评论 -
解决centos7 乱码的问题
centos为何在终端:以中文命名的文件显示乱码?解决办法:1.修改centos7的编码:vim /etc/locale.confLANG="zh_CN.UTF-8"LANGUAGE="zh_CN.GB18030:zh_CN.GB2312:zh_CN"SUPPORTED="zh_CN.UTF-8:zh_CN:zh:en_US.UTF-8:en_US:en"SYSFO...原创 2019-01-03 17:46:33 · 12245 阅读 · 1 评论