- 博客(78)
- 资源 (8)
- 收藏
- 关注
原创 hive查询s3外部表报java.lang.NoClassDefFoundError错误解决
hive查询外部表 报错 Error: java.lang.NoClassDefFoundError: com/amazonaws/services/s3/model/MultiObjectDeleteException (state=,code=0)
2022-05-17 17:09:35 984
原创 hive创建s3外部表失败解决方案
解决hive创建s3外部表的时候报错FAILED: SemanticException java.lang.RuntimeException: java.lang.ClassNotFoundException: Class org.apache.hadoop.fs.s3.S3FileSystem not found
2022-05-10 22:04:11 1381
原创 解决hive localtion parquet文件创建外部表报错Cannot inspect org.apache.hadoop.io.ArrayWritable
hive 读取外部表失败Failed with exception java.io.IOException:org.apache.hadoop.hive.ql.metadata.HiveException: java.lang.UnsupportedOperationException: Cannot inspect org.apache.hadoop.io.ArrayWritable
2022-05-10 21:51:33 791
原创 java csv数据转parquet格式
本文将csv格式的数据转化为parquet格式,涉及的数据类型包括String,timestamp,double,boolean
2021-12-28 14:13:25 1655
原创 pyspark实现csv文件转parquet格式(最优解决方案)
pyspark实现csv文件转parquet格式(最优解决方案,自动识别字段类型)
2021-12-20 15:42:58 670
原创 mysql+HeatWave测试
mysql结合HeatWave, HeatWave 是一种分布式、可扩展、无共享( shared noting(SN))、基于内存、混合列式查询处理引擎
2021-12-18 17:54:15 1933
原创 KAFKA源码学习之NIO
简介可以理解为Non Blocking IoNIO和IO的区别IO之前的IO直接面向流,输入流和输出流需要单独建立NIO面向缓冲区,只需要一个通道(负责连接),输入和输出复用,缓冲区负责存储通道和缓冲区1.缓冲区缓冲区(Buffer):在javaIO中负责数据的存储,缓冲区就是数组,用于储存不同的数据类型的数据根据不同的数据类型(Boolean除外),提供了相应类型的缓冲区ByteBufferCharBufferShortBufferIntBUfferLo
2021-06-20 23:35:58 410 2
原创 pulsar commiter问与答
>>> 问题1: 核心组件中,不是说去Zookeeper嘛?目前所有的发行版中还没有去掉zookeeper的版本,可能会在2.9.0发布去掉zookeeper的版本,去zookeeper是 Pulsar Hackathon 的一个项目,后面会有更多的内容出来>>>问题2: pulsar新增broker的时候,是如何去别的broker里面拿topic的呢?这个负载均衡过程是怎么样的? 以及在重新分配broker的topic的时候,producer和consumer会
2021-05-16 17:51:24 445
原创 [ERROR][org.logstash.Logstash ] java.lang.IllegalStateException: Logstas 报错解决
[2020-06-03T13:52:19,226][FATAL][logstash.runner ] Logstash could not be started because there is already another instance using the configured data directory. If you wish to run multiple instances, you must change the "path.data" setting.[2020-
2020-06-03 14:14:07 6781
原创 Flink之CEP(复杂事件处理)
CEP概述复杂事件处理(Complex Event Processing,CEP)FLink CEP是在Flink中实现的复杂事件处理(CEP)库CEP允许在无休止的事件流中检测事件模式,让我们有机会掌握数据中重要的部分一个或多个由简单事件构成的事件流通过一定的规则匹配,然后输出用户想要得到的数据-=-满足规则的复杂事件...
2020-05-27 22:27:15 2601 1
原创 FLink DataStream开发之Time与Window
TimeFlink 流式处理中,存在时间的不同概念Event Time: 事件的创建时间,通常由事件中的时间戳描述,相当于食品的生产日期Ingestion Time:数据进入flink的时间,相当于食品快递到你家的时间Processing Time:是每个执行基于时间操作的算子的本地系统时间,与机器相关 ,默认的时间属性就是 Processing Time ,相当于你吃到汉堡的时间通过...
2020-04-26 16:31:34 935
原创 flink Datastream之自定义connector
flink Datastream自定义source和sink,主要以mysql为例子
2020-04-21 16:06:09 1269
原创 flink Datastream开发之kafka(source&sink)
本文介绍基于kafkasource和sink的flink Datastream开发,包括消费kafka消息和将结果sink到kafka中
2020-04-21 15:23:37 3390 1
原创 filebeat采集一台服务器中的不同日志,并将日志放到ES中的不同索引中
filebeat.inputs:- type: log enabled: true paths: ?- /usr/local/tomcat/apache-tomcat-8.5.53/logs/catalina.out tags: ["tomcat"] fields: index: "tomcat"- type: log enabled: true pa...
2020-04-17 13:24:49 1832
原创 Flink 批处理之DataSet(source、sink、Transformation)
介绍flink批处理开发流程,以及各类常用source&sink详细
2020-03-31 11:02:02 1852
原创 解决win10更新后ubuntu引导项消失问题
问题描述:win10更新重启ubuntu引导项消失,电脑直接进入windows,boot里边也ubuntu 系统盘 ,Boot-repair。Boot-repair介绍: ubuntu特有的傻瓜型修复引导工具。无论是win不能引导, 还是ubuntu不能引导,还是死在grub提示符。。反正就是安装ubuntu后启动出问题了, 都可以用这个方法解决, 唯一的要求是安装盘live启动后需要联网
2020-03-26 23:25:10 6021 6
原创 django.urls.exceptions.NoReverseMatch
django.urls.exceptions.NoReverseMatch: Reverse for '<reversed object at 0x7fec60c33e90>' not found. '<reversed object at 0x7fec60c33e90>' is not a valid view function or pattern name.
2020-03-22 16:45:41 939
原创 错误解决java.lang.NoClassDefFoundError: org/apache/hadoop/fs/FSDataInputStrea和Under-Replicated Blocks
错误解决java.lang.NoClassDefFoundError: org/apache/hadoop/fs/FSDataInputStrea和Under-Replicated Blocks
2020-03-20 15:52:18 2520
原创 centos&离线安装Cloudera Manager6.3.1 和CDH6.3.1
1.环境准备2.下载所需资源https://archive.cloudera.com/cm6/6.3.1/redhat7/yum/RPMS/x86_64/cloudera-manager-daemons-6.3.1-1466458.el7.x86_64.rpmhttps://archive.cloudera.com/cm6/6.3.1/redhat7/yum/RPMS/x86_64/clo...
2020-03-08 21:59:40 2847
原创 centos上mysql5.7主从热备设置
mysql的安装:https://blog.csdn.net/qq_37135484/article/details/78594782前提:要确保服务器之间能够互相ping通,互相登陆。1.服务器介绍主(master):192.168.78.154从 (slave):192.168.78.155用户都为root,密码为:1234562.主服务器配置1)设置/etc/my.cnf主...
2019-10-22 11:16:33 491
原创 解决flink启动后无法正常关闭
flink集群无法正常关闭使用命令stop-cluster.sh关闭flink集群的时候出现以下错误,No taskexecutor daemon to stop on host tanghc-X550JX.No standalonesession daemon to stop on host tanghc-X550JX.
2019-10-10 09:29:59 5637 7
原创 flink打包程序提交任务示例
工具maven、idea、flink1.9-2.11scala代码pom.xml<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-inst...
2019-10-08 17:11:59 1001 2
原创 Flink简介以及与sparkStreaming和Storm比较
Apache Flink 是一个开源的分布式,高性能,高可用,准确的流处理框架。对比另外俩主流的实时计算框架,Flink有着独特的魅力
2019-09-30 14:36:56 912
原创 pandas时间序列之滑动窗口
%matplotlib inlineimport matplotlib.pylabimport numpy as npimport pandas as pd#生成示例数据df=pd.Series(np.random.randn(1000),index=pd.date_range('1/1/2019',freq='D',periods=1000))df.head()#设置窗口滑...
2019-09-28 11:43:34 1536
原创 Pandas数据重采样
数据重采样时间数据由一个频率转换到另一个频率降采样升采样import pandas as pdimport numpy as np#先生成一份时间序列数据rng = pd.date_range('1/1/2019', periods=90, freq='D')ts = pd.Series(np.random.randn(len(rng)), index=rng)ts.head...
2019-09-27 17:27:31 2059
原创 时间序列——使用tsfresh进行分类任务
tsfresh简介tsfresh是开源的提取时序数据特征的python包,能够提取出超过4000种特征,堪称提取时序特征的瑞士军刀。tsfresh官网tsfresh项目github地址下面是使用官方的案例数据进行的一个小例子。当然在这之前你要先安装tsfresh库,很方便直接pip install tsfresh就可以了。%matplotlib inlineimport matpl...
2019-09-25 16:36:55 4705 3
原创 ARIMA模型选择与残差
%load_ext autoreload%autoreload 2%matplotlib inline%config InlineBackend.figure_format='retina'import pandas as pdimport numpy as npimport statsmodels.api as smimport statsmodels.formula.api as...
2019-09-24 14:31:10 7758 1
原创 时间序列-ARIMA模型
数据平稳性与差分法平稳性:平稳性就是要求经由样本时间序列所得到的拟合曲线 在未来的一段期间内仍能顺着现有的形态“惯性”地延续下平稳性要求序列的均值和方差不发生明显变化严平稳与弱平稳:严平稳:严平稳表示的分布不随时间的改变而改变。 如:白噪声(正态),无论怎么取,都是期望为0,方差为1弱平稳:期望与相关系数(依赖性)不变 未来某时刻的t的值Xt就要依赖于它的过去信息,所以需要依赖性...
2019-09-23 14:23:15 1727
原创 解决ubuntu下丢失win10引导项
问题描述:ubuntu突然进入系统特别慢,大概像这样不耐烦的我直接强行重启了,重启效果很好,windows引导项没了,很nice,想想我的迅雷,我那一瞬间是有点失落的,所以我决定找回来,一番探索,发现一行命令就能解决:进入ubuntu中,运行以下命令sudo grub-mkconfig -o /boot/grub/grub.cfg# 或者下面这条命令,具体根据grub.cfg文件的位置...
2019-09-19 14:04:48 991
原创 LDA与PCA数据降维算法理论与实现(基于python)
线性判别分析(LDA)linear Discriminant Analysis用途:数据预处理中的降维,分类任务目标:LDA关心的是能够最大化类间区分度的坐标轴成分将特征空间(数据集中的多位样本)投影到一个维度更加小的Kw维子空间中,同时保持区分类别的信息原理投影到维度更低的空间,使得投影后的点,会形成按照类别区分,一簇一簇的情况,相同类别的点,将会在投影后的空间中更接近方法监...
2019-08-19 17:37:17 2819
原创 mysql设置密码时报错 Your password does not satisfy the current policy requirements(修改·mysql密码策略设置简单密码)
当修改mysql密码时报错ERROR 1819 (HY000): Your password does not satisfy the current policy requirements
2019-08-07 11:43:22 1611
原创 centos yum方式安装mysql
1.下载 mysql源安装包wget http://dev.mysql.com/get/mysql57-community-release-el7-8.noarch.rpm2.安装mysql源yum localinstall mysql57-community-release-el7-8.noarch.rpm 3,检查mysql源是否安装成功yum repolist enable...
2019-08-07 11:35:10 307
flume-ng-sql-source-1.5.3.jar
2019-11-26
Adobe套餐破解——百度云
2019-04-24
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人