自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

大数据进阶之路

六个月速成大数据

  • 博客(49)
  • 收藏
  • 关注

原创 Elasticsearch 8.x技术总结

复合查询子句: 复合查询可以包裹 叶子节点查询 或者 复合查询子句,用于组合多个查询( bool,dis_max)或改变查询行为(constant_score)。分别描述了什么是 相关性评分(Relevance scores)、相关性查询(Query context)、过滤查询(Filter context)叶子节点查询: 叶子查询子句在特定字段中查找特定值,例如 match,term,range 查询。这类查询可以单独使用。一、Query and filter context。

2024-07-18 16:37:33 130

原创 How To Handle MLOG$_AP_SUPPLIER_SITES_AL, MLOG$_AP_SUPPLIERS Growing So Much? Having Lots of Data

How To Handle MLOG$_AP_SUPPLIER_SITES_AL, MLOG$_AP_SUPPLIERS Growing So Much? Having Lots of Data

2022-07-29 17:23:50 314

原创 Compile error: User-defined type not defined - Dim oParser As New SAXXMLReader60“ in Oracle Web ADI

Compile error: User-defined type not defined - Dim oParser As New SAXXMLReader60" in Oracle Web ADI

2022-06-20 11:11:42 308

原创 User-defined type not defined - Dim oParser As New SAXXMLReader60

User-defined type not defined - Dim oParser As New SAXXMLReader60

2022-06-15 16:40:19 274

原创 git 常用指令

git 常用指令

2022-06-13 14:13:16 105

原创 @RequestParam Map<String, Object> params postman 如何测试

遇到问题:今天学习使用postman测试一个post接口时,前端传一个json对象,后端使用(@RequestParam HashMap map)接收,这样收不到postman传来的参数。如何解决: 是postman传参的话要把 @RequestParam 换成 @RequestBody问题原因:因为@RequestParam 传参是接收请求头request header中的数据,而@RequestBody传参是接收请求体request body中的数据,而postman测接口时传参是放在body

2022-04-24 12:01:03 3026

原创 linux怎么添加用户并赋予root权限

给用户赋root权限

2022-04-20 10:52:50 9959

原创 重新format namenode后,datanode无法正常启动

重新format namenode后,datanode无法正常启动测试环境,由于测试需求,重新format namenode后,导致datanode无法正常启动。1. 查看datanode日志,可以发现错误“Initialization failed for Block pool <registering> (Datanode Uuid unassigned)” 2021-09-01 15:45:45,571 INFO org.apache.hadoop.hdfs.server.dat

2021-09-01 18:58:23 170

原创 Spring-boot 整合 Mybatis

1.引入mybatis依赖坐标 <dependencies> <dependency> <groupId>org.mybatis.spring.boot</groupId> <artifactId>mybatis-spring-boot-starter</artifactId> <version>2.2.0</version&gt

2021-08-25 22:09:07 112

原创 StructruedStreaming 使用foreach落地数据到mysql中 代码示例

package com.itcast.sql import java.sql.{Connection, DriverManager, Statement} import org.apache.spark.sql.{ForeachWriter, Row, SparkSession} object StructruedForeach { def main(args: Array[String]): Unit = { val spark = SparkSession.b.

2021-06-06 00:13:07 354 1

原创 StructredStreaming读取HDFS文件夹示例

package com.itcast.sqlimport org.apache.spark.sql.types.{DataType, DoubleType, IntegerType, StringType, StructField, StructType}import org.apache.spark.sql.{DataFrame, SparkSession}object StructredStreaming { def main(args: Array[String]): Unit = {

2021-06-05 23:21:23 207

原创 Structrured Streaming整合Kafka示例

1、创建测试的 Topic kafka启动脚本(启动kafka之前,必须先启动zookeeper & 集群) bin/kafka-server-start.sh config/server.properties > /dev/null 2>&1 & 创建topic bin/kafka-topics.sh --create --zookeeper hadoop100:2181 --replication-factor 1 --partitions 1 --to

2021-06-05 23:18:47 158

原创 Error:scalac: Scala compiler JARs not found

刚开始学习Spark遇到一个新手很容易遇到的问题,记录一下Error:scalac: Scala compiler JARs not found (module 'SparkSql'): C:\Users\***\.m2\repository\org\scala-lang\scala-compiler\2.11.8\scala-compiler-2.11.8.jar问题原因,项目未添加Scala类库。添加scala 库方法 Idea File -> Project Structrue -&

2021-06-05 21:24:59 1969

原创 SparkSql缺失值处理

DataFrameNaFunctionsDataFrameNaFunctions 使用 Dataset 的 na 函数来获取val df = ...val naFunc: DataFrameNaFunctions = df.na当数据集中出现缺失值的时候, 大致有两种处理方式, 一个是丢弃, 一个是替换为某值, DataFrameNaFunctions 中包含一系列针对空值数据的方案DataFrameNaFunctions.drop 可以在当某行中包含 null 或 NaN 的时候丢弃此行

2021-05-23 10:30:43 1533 6

原创 EBS Form级联应用

form 中item关联控制代码 app_field.set_dependent_field(event, (:invoices_qf.vendor_id is not null or :invoices_qf.invoice_num is not null or :invoices_qf.invoice_type_lookup_code is not null or :i

2021-05-22 10:48:39 233

原创 SparkSql写数据到Mysql中

import org.apache.spark.sql.{SaveMode, SparkSession}import org.apache.spark.sql.types.{FloatType, IntegerType, StringType, StructField, StructType}object MysqlWrite { def main(args: Array[String]): Unit = { val spark = SparkSession.builder()

2021-05-22 10:44:42 493

原创 使用SparkSql读取Mysql数据

import org.apache.spark.sql.SparkSessionobject MysqlRead { def main(args: Array[String]): Unit = { val spark = SparkSession.builder() .master("local[6]") .appName("mysql read") .getOrCreate() //从mysql中读取数据 //注意 提前需要在pom文

2021-05-22 10:43:16 752

原创 2分钟玩转FastJson

1、添加依赖 <dependency> <groupId>com.alibaba</groupId> <artifactId>fastjson</artifactId> <version>1.2.76</version> </dependency>2、 //转换json字符串 String str = JSON.toJSONString(list);

2021-04-30 14:14:27 100

原创 FORM界面批量处理-全选框实现

declarebegin if :BTN.SELECT_ALL = 'Y' then go_block('AR_SELECTED'); first_record; loop :AR_SELECTED.AR_SELECT_BZ := 'Y'; EXIT WHEN :SYSTEM.last_record='TRUE'; next_record; END LOOP; elsIF :BTN.SELECT_ALL = 'N' THEN go_bl

2021-04-29 22:20:06 122

原创 EBS Form 级联使用

form 中item关联控制代码app_field.set_dependent_field(event,(:invoices_qf.vendor_id is not null or:invoices_qf.invoice_num is not null or:invoices_qf.invoice_type_lookup_code is not null or:invoices_qf.invoice_date_low is not null or:invoices_qf.invoice_date

2021-04-29 22:19:15 224

原创 Spring applicationContext.xml约束

Spring xml 约束<?xml version="1.0" encoding="UTF-8"?><beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns:context="http://www.springframework.org/schema/context"

2021-04-29 22:16:59 104

原创 Mybatis映射文件 SqlMapConfig.xml 解析

SqlMapConfig.xml约束<?xml version="1.0" encoding="UTF-8"?><!DOCTYPE configuration PUBLIC "-//mybatis.org//DTD Config 3.0//EN" "http://mybatis.org/dtd/mybatis-3-config.dtd"><configuration> <!-- 配置 mybatis 的环境 --&gt

2021-04-29 22:13:45 88

原创 Mybatis 使用分页插件PageHelper实现分页功能

具体实现步骤:1、添加pageHelper依赖jar包<!--Mybatis可以使用外部分页插件(pagehelper&jsqlparser)实现分页效果 --><dependency> <groupId>com.github.pagehelper</groupId> <artifactId>pagehelper</artifactId> <version>5.1.10</ver

2021-04-29 22:12:25 245

原创 idea搭建maven web项目

1、Create new Project 2、选择Maven,勾选Create from archetype 在archetype中选择:org.apache.maven.archetype:maven-archetype-webapp 3、填写: GroupId : testGroupID ArtifactId : TestArtifactId 4、指定maven相关信息(安装路径 setting文件 local repository路径) 在Properties中添加一.

2021-04-29 21:20:49 113

原创 Hive分析窗口函数(一) NTILE,ROW_NUMBER,RANK,DENSE_RANK -

Hive分析窗口函数(一) NTILE,ROW_NUMBER,RANK,DENSE_RANK数据准备cookie1,2018-04-10,1cookie1,2018-04-11,5cookie1,2018-04-12,7cookie1,2018-04-13,3cookie1,2018-04-14,2cookie1,2018-04-15,4cookie1,2018-04-16,4cookie2,2018-04-10,2cookie2,2018-04-11,3cookie2,2018-

2021-04-28 11:40:57 201

原创 大数据流量分析查用指标介绍

**流量分析常见分类**指标是网站分析的基础,用来记录和衡量访问者在网站自的各种行为。比如我们经常说的流量就是一个网站指标,它是用来衡量网站获得的访问量。在进行流量分析之前,我们先来了解一些常见的指标。1. 基础级指标PageView浏览次数(PV):用户每打开1个网站页面,记录1个PV。用户多次打开同一页面PV累计多次。通俗解释就是页面被加载的总次数。Unique Visitor独立访客(UV): 1天之内,访问网站的不重复用户数(以浏览器cookie为依据),一天内同一访客多次访问网站只被计算

2021-04-27 17:50:01 954

原创 HIVE中lateral view 与 explode函数使用

UDTF(User-Defined Table-Generating Functions) 用来解决输入一行输出多行(On-to-many maping) 的需求。Explode也是拆列函数,比如Explode (ARRAY) ,array中的每个元素生成一行。**explode的使用**001,allen,usa|china|japan,1|3|6002,kobe,usa|england|japan,2|3|4创建表create table test_message(id int, name

2021-04-27 15:41:28 1214

原创 Centos6配置在线yarm源 Centos6 网易源阿里源都失效用不了的解决方法

忽然发现,以前配置的,网上很多文章写的, 网易源,阿里源。在2020年都用不了,打开也是404了。好在centos官方提供了一个源,速度也不错。vim /etc/yum.repos.d/CentOS-Base.repo[base]name=CentOS-6failovermethod=prioritybaseurl=https://vault.centos.org/6.10/os/x86_64/gpgcheck=0yum makecache...

2021-04-26 17:45:17 285

原创 20分钟 玩转Flume

### Apache Flume- 概述 - flume是一款大数据中海量数据采集传输汇总的软件。特别指的是数据流转的过程,或者说是数据搬运的过程。把数据从一个存储介质通过flume传递到另一个存储介质中。- 核心组件 - source :用于对接各个不同的数据源 - sink:用于对接各个不同存储数据的目的地(数据下沉地) - channel:用于中间临时存储缓存数据- 运行机制 - flume本身是java程序 在需要采集数据机器上启动 ----->agent

2021-04-25 10:32:00 132 1

原创 flume采集目录到 HDFS

采集需求:服务器的某特定目录下,会不断产生新的文件,每当有新文件出现,就需要把文件采集到 HDFS 中去 根据需求,首先定义以下 3 大要素  采集源,即 source——监控文件目录 : spooldir  下沉目标,即 sink——HDFS 文件系统 : hdfs sink  source 和 sink 之间的传递通道——channel,可用 file channel 也可以用内存 channel 配置文件编写: # Name the components on this a

2021-04-25 00:05:46 324 1

原创 Flume监控文件采集文件到 HDFS

采集需求:比如业务系统使用 log4j 生成的日志,日志内容不断增加,需要把追加到日志文件中的数据实时采集到 hdfs 根据需求,首先定义以下 3 大要素  采集源,即 source——监控文件内容更新 : exec ‘tail -F file’  下沉目标,即 sink——HDFS 文件系统 : hdfs sink  Source 和 sink 之间的传递通道——channel,可用 file channel 也可以用 内存 channel 配置文件编写: # Nam

2021-04-25 00:02:56 305

原创 hive自定函数 UDF使用

1. Hive 自带了一些函数,比如:max/min等,当Hive提供的内置函数无法满足你的业务处理需要时,此时就可以考虑使用用户自定义函数(UDF).2. 根据用户自定义函数类别分为以下三种: 1. UDF(User-Defined-Function) - 一进一出 2. UDAF(User-Defined Aggregation Function) - 聚集函数,多进一出 - 类似于:`count`/`max`/`min` 3. UDTF(Us

2021-04-24 11:00:52 322

原创 10分钟玩转Hbase CRUD

HBase操作基本类类名用途获取方式ConfigurationHBase的配置类HBaseConfiguration.createConnection连接ConnectionFactory.createConnection(conf)AdminHBase的操作APIConnection.getAdminTable用来链接HBase的单表Connection.getTable()Get用来查询HBase的单行数据new Get(rowkey.

2021-04-21 12:50:21 247

原创 处理 ERROR: org.apache.hadoop.hbase.ipc.ServerNotRunningYetException: Server is not running yet

在启动了hbase之后进入hbase shell,list出现了如上错误,而且发现jps各个服务都启动了hbase(main):004:0> listTABLE ERROR: org.apache.hadoop.hbase.ipc.ServerNotRunningYetException: Server is

2021-04-19 11:25:41 1849

原创 超详细Hbase集群搭架

**超级详细Hbase集群搭架教程**1. 下载对应的HBase的安装包 下载Hbase的安装包,下载地址如下: http://archive.apache.org/dist/hbase/2.0.0/hbase-2.0.0-bin.tar.gz 2. 压缩包上传并解压 将我们的压缩包上传到node01服务器的/export/softwares路径下并解压 cd /export/softwares/ tar -zxf hbase-2.0.0-bin.tar.gz

2021-04-18 21:53:42 107

原创 kafka.network.InvalidRequestException: Error getting request for apiKey: 3 and apiVersion: 2

问题flink整合kafka的时候报错:Bootstrap broker hadoop100:9092 disconnectedkafka日志显示:kafka.network.InvalidRequestException: Error getting request for apiKey: 3 and apiVersion: 2解决办法: kafka版本不兼容,使用flink整合kafka的时候,添加kafka版本要和服务器版本一致才行。换成一致的版本问题解决。 linux获取服务器kafk

2021-04-18 18:34:34 1407 1

原创 Flink水印案例及解析

**示例**编写代码, 计算5秒内,用户的订单总额订单数据(订单ID——UUID、用户ID、时间戳、订单金额),要求`添加水印`来解决网络延迟问题。 import java.util.UUID import java.util.concurrent.TimeUnit import org.apache.commons.lang.time.FastDateFormat import org.apache.flink.api.scala._ import org.apache.flink.s

2021-04-16 15:48:16 497

原创 Aggregate does not support grouping with KeySelector functions, yet.

使用 flink aggregate 统计单词个数,报错Aggregate does not support grouping with KeySelector functions, yet.val word01 = environment.fromCollection(List("flink", "spark", "spark", "hadoop")) word01.map((_,1)) .groupBy(0) .aggregate(Aggregations.SUM,1)

2021-04-15 14:58:56 610 2

原创 ERROR 1045 (28000): Access denied for user ‘root‘@‘localhost‘ (using passwor:yes)

一般这个错误是由密码错误引起,解决的办法自然就是重置密码。假设我们使用的是root账户。1.重置密码的第一步就是跳过MySQL的密码认证过程,方法如下:#vim /etc/my.cnf(注:windows下修改的是my.ini)[root@hadoop100 ~]# vim /etc/my.cnf在[mysqld]后面任意一行添加“skip-grant-tables”用来跳过密码验证的过程,skip-grant-tables重启mysql服务[root@hadoop100 ~]# /etc/i

2021-04-13 22:21:38 725

原创 zookeeper的集群环境搭建

修改 ZooKeeper 配置文件cd /export/softwarestar -zxvf apache-zookeeper-3.5.6-bin.tar.gz -C /export/servers/改名cd /export/serversmv apache-zookeeper-3.5.6-bin zookeeper修改配置文件cd /export/servers/zookeeper/conf/cp zoo_sample.cfg zoo.cfgmkdir -p /export/server

2021-04-13 15:17:25 63

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除