自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(78)
  • 资源 (8)
  • 收藏
  • 关注

原创 hive查询s3外部表报java.lang.NoClassDefFoundError错误解决

hive查询外部表 报错 Error: java.lang.NoClassDefFoundError: com/amazonaws/services/s3/model/MultiObjectDeleteException (state=,code=0)

2022-05-17 17:09:35 911

原创 hive创建s3外部表失败解决方案

解决hive创建s3外部表的时候报错FAILED: SemanticException java.lang.RuntimeException: java.lang.ClassNotFoundException: Class org.apache.hadoop.fs.s3.S3FileSystem not found

2022-05-10 22:04:11 1268

原创 解决hive localtion parquet文件创建外部表报错Cannot inspect org.apache.hadoop.io.ArrayWritable

hive 读取外部表失败Failed with exception java.io.IOException:org.apache.hadoop.hive.ql.metadata.HiveException: java.lang.UnsupportedOperationException: Cannot inspect org.apache.hadoop.io.ArrayWritable

2022-05-10 21:51:33 699

原创 pyspark 将csv转为parquet格式

使用pyspark将csv转为parquet格式的数据

2021-12-28 14:24:27 1623

原创 java csv数据转parquet格式

本文将csv格式的数据转化为parquet格式,涉及的数据类型包括String,timestamp,double,boolean

2021-12-28 14:13:25 1502

原创 pyspark实现csv文件转parquet格式(最优解决方案)

pyspark实现csv文件转parquet格式(最优解决方案,自动识别字段类型)

2021-12-20 15:42:58 607

原创 mysql+HeatWave测试

mysql结合HeatWave, HeatWave 是一种分布式、可扩展、无共享( shared noting(SN))、基于内存、混合列式查询处理引擎

2021-12-18 17:54:15 1857

原创 pulsar Schema 案例

本文通过简单案例介绍了pulsar的schema的使用,

2021-07-25 18:35:01 898

原创 pulsar java IO生产消费消息

单机模式下的pulsar的java io 生产&发送消息

2021-07-25 18:00:40 399 2

原创 KAFKA源码学习之NIO

简介可以理解为Non Blocking IoNIO和IO的区别IO之前的IO直接面向流,输入流和输出流需要单独建立NIO面向缓冲区,只需要一个通道(负责连接),输入和输出复用,缓冲区负责存储通道和缓冲区1.缓冲区缓冲区(Buffer):在javaIO中负责数据的存储,缓冲区就是数组,用于储存不同的数据类型的数据根据不同的数据类型(Boolean除外),提供了相应类型的缓冲区ByteBufferCharBufferShortBufferIntBUfferLo

2021-06-20 23:35:58 371 2

原创 pulsar commiter问与答

>>> 问题1: 核心组件中,不是说去Zookeeper嘛?目前所有的发行版中还没有去掉zookeeper的版本,可能会在2.9.0发布去掉zookeeper的版本,去zookeeper是 Pulsar Hackathon 的一个项目,后面会有更多的内容出来>>>问题2: pulsar新增broker的时候,是如何去别的broker里面拿topic的呢?这个负载均衡过程是怎么样的? 以及在重新分配broker的topic的时候,producer和consumer会

2021-05-16 17:51:24 378

原创 [ERROR][org.logstash.Logstash ] java.lang.IllegalStateException: Logstas 报错解决

[2020-06-03T13:52:19,226][FATAL][logstash.runner ] Logstash could not be started because there is already another instance using the configured data directory. If you wish to run multiple instances, you must change the "path.data" setting.[2020-

2020-06-03 14:14:07 6640

原创 Flink之CEP(复杂事件处理)

CEP概述复杂事件处理(Complex Event Processing,CEP)FLink CEP是在Flink中实现的复杂事件处理(CEP)库CEP允许在无休止的事件流中检测事件模式,让我们有机会掌握数据中重要的部分一个或多个由简单事件构成的事件流通过一定的规则匹配,然后输出用户想要得到的数据-=-满足规则的复杂事件...

2020-05-27 22:27:15 2332 1

原创 禁止ES批量删除索引

在ES的配置文件中设置:action.destructive_requires_name: true

2020-05-11 10:47:53 1061

原创 FLink DataStream开发之Time与Window

TimeFlink 流式处理中,存在时间的不同概念Event Time: 事件的创建时间,通常由事件中的时间戳描述,相当于食品的生产日期Ingestion Time:数据进入flink的时间,相当于食品快递到你家的时间Processing Time:是每个执行基于时间操作的算子的本地系统时间,与机器相关 ,默认的时间属性就是 Processing Time ,相当于你吃到汉堡的时间通过...

2020-04-26 16:31:34 862

原创 flink Datastream之自定义connector

flink Datastream自定义source和sink,主要以mysql为例子

2020-04-21 16:06:09 1204

原创 flink Datastream开发之kafka(source&sink)

本文介绍基于kafkasource和sink的flink Datastream开发,包括消费kafka消息和将结果sink到kafka中

2020-04-21 15:23:37 3252 1

原创 filebeat采集一台服务器中的不同日志,并将日志放到ES中的不同索引中

filebeat.inputs:- type: log enabled: true paths: ?- /usr/local/tomcat/apache-tomcat-8.5.53/logs/catalina.out tags: ["tomcat"] fields: index: "tomcat"- type: log enabled: true pa...

2020-04-17 13:24:49 1749

原创 Flink 批处理之DataSet(source、sink、Transformation)

介绍flink批处理开发流程,以及各类常用source&sink详细

2020-03-31 11:02:02 1717

原创 "第四代"大数据计算引擎Flink简介

Flink的引入什么是FlinkFlink流处理特性Flink基石批处理与流处理

2020-03-31 09:52:52 485

原创 解决win10更新后ubuntu引导项消失问题

问题描述:win10更新重启ubuntu引导项消失,电脑直接进入windows,boot里边也ubuntu 系统盘 ,Boot-repair。Boot-repair介绍: ubuntu特有的傻瓜型修复引导工具。无论是win不能引导, 还是ubuntu不能引导,还是死在grub提示符。。反正就是安装ubuntu后启动出问题了, 都可以用这个方法解决, 唯一的要求是安装盘live启动后需要联网

2020-03-26 23:25:10 5782 6

原创 django.urls.exceptions.NoReverseMatch

django.urls.exceptions.NoReverseMatch: Reverse for '<reversed object at 0x7fec60c33e90>' not found. '<reversed object at 0x7fec60c33e90>' is not a valid view function or pattern name.

2020-03-22 16:45:41 903

原创 错误解决java.lang.NoClassDefFoundError: org/apache/hadoop/fs/FSDataInputStrea和Under-Replicated Blocks

错误解决java.lang.NoClassDefFoundError: org/apache/hadoop/fs/FSDataInputStrea和Under-Replicated Blocks

2020-03-20 15:52:18 2160

原创 centos&离线安装Cloudera Manager6.3.1 和CDH6.3.1

1.环境准备2.下载所需资源https://archive.cloudera.com/cm6/6.3.1/redhat7/yum/RPMS/x86_64/cloudera-manager-daemons-6.3.1-1466458.el7.x86_64.rpmhttps://archive.cloudera.com/cm6/6.3.1/redhat7/yum/RPMS/x86_64/clo...

2020-03-08 21:59:40 2693

原创 flume增量采集mysql数据到kafka

flume采集mysql数据到kafka

2019-11-26 20:52:08 1190

原创 centos上mysql5.7主从热备设置

mysql的安装:https://blog.csdn.net/qq_37135484/article/details/78594782前提:要确保服务器之间能够互相ping通,互相登陆。1.服务器介绍主(master):192.168.78.154从 (slave):192.168.78.155用户都为root,密码为:1234562.主服务器配置1)设置/etc/my.cnf主...

2019-10-22 11:16:33 447

原创 解决flink启动后无法正常关闭

flink集群无法正常关闭使用命令stop-cluster.sh关闭flink集群的时候出现以下错误,No taskexecutor daemon to stop on host tanghc-X550JX.No standalonesession daemon to stop on host tanghc-X550JX.

2019-10-10 09:29:59 5374 7

原创 flink打包程序提交任务示例

工具maven、idea、flink1.9-2.11scala代码pom.xml<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-inst...

2019-10-08 17:11:59 971 2

原创 Flink简介以及与sparkStreaming和Storm比较

Apache Flink 是一个开源的分布式,高性能,高可用,准确的流处理框架。对比另外俩主流的实时计算框架,Flink有着独特的魅力

2019-09-30 14:36:56 855

原创 pandas时间序列之滑动窗口

%matplotlib inlineimport matplotlib.pylabimport numpy as npimport pandas as pd#生成示例数据df=pd.Series(np.random.randn(1000),index=pd.date_range('1/1/2019',freq='D',periods=1000))df.head()#设置窗口滑...

2019-09-28 11:43:34 1483

原创 Pandas数据重采样

数据重采样时间数据由一个频率转换到另一个频率降采样升采样import pandas as pdimport numpy as np#先生成一份时间序列数据rng = pd.date_range('1/1/2019', periods=90, freq='D')ts = pd.Series(np.random.randn(len(rng)), index=rng)ts.head...

2019-09-27 17:27:31 2000

原创 pandas时间序列处理

python时间序列中的一些时间基本操作

2019-09-27 17:00:55 267 1

原创 时间序列——使用tsfresh进行分类任务

tsfresh简介tsfresh是开源的提取时序数据特征的python包,能够提取出超过4000种特征,堪称提取时序特征的瑞士军刀。tsfresh官网tsfresh项目github地址下面是使用官方的案例数据进行的一个小例子。当然在这之前你要先安装tsfresh库,很方便直接pip install tsfresh就可以了。%matplotlib inlineimport matpl...

2019-09-25 16:36:55 4628 3

原创 ARIMA模型选择与残差

%load_ext autoreload%autoreload 2%matplotlib inline%config InlineBackend.figure_format='retina'import pandas as pdimport numpy as npimport statsmodels.api as smimport statsmodels.formula.api as...

2019-09-24 14:31:10 7668 1

原创 ARIMA模型(p,d,q)参数确定(python)

模型的参数由ACF和PACF确定,如下表格如何确定参数

2019-09-23 14:45:37 64966

原创 时间序列-ARIMA模型

数据平稳性与差分法平稳性:平稳性就是要求经由样本时间序列所得到的拟合曲线 在未来的一段期间内仍能顺着现有的形态“惯性”地延续下平稳性要求序列的均值和方差不发生明显变化严平稳与弱平稳:严平稳:严平稳表示的分布不随时间的改变而改变。 如:白噪声(正态),无论怎么取,都是期望为0,方差为1弱平稳:期望与相关系数(依赖性)不变 未来某时刻的t的值Xt就要依赖于它的过去信息,所以需要依赖性...

2019-09-23 14:23:15 1511

原创 解决ubuntu下丢失win10引导项

问题描述:ubuntu突然进入系统特别慢,大概像这样不耐烦的我直接强行重启了,重启效果很好,windows引导项没了,很nice,想想我的迅雷,我那一瞬间是有点失落的,所以我决定找回来,一番探索,发现一行命令就能解决:进入ubuntu中,运行以下命令sudo grub-mkconfig -o /boot/grub/grub.cfg# 或者下面这条命令,具体根据grub.cfg文件的位置...

2019-09-19 14:04:48 942

原创 LDA与PCA数据降维算法理论与实现(基于python)

线性判别分析(LDA)linear Discriminant Analysis用途:数据预处理中的降维,分类任务目标:LDA关心的是能够最大化类间区分度的坐标轴成分将特征空间(数据集中的多位样本)投影到一个维度更加小的Kw维子空间中,同时保持区分类别的信息原理投影到维度更低的空间,使得投影后的点,会形成按照类别区分,一簇一簇的情况,相同类别的点,将会在投影后的空间中更接近方法监...

2019-08-19 17:37:17 2734

原创 mysql设置密码时报错 Your password does not satisfy the current policy requirements(修改·mysql密码策略设置简单密码)

当修改mysql密码时报错ERROR 1819 (HY000): Your password does not satisfy the current policy requirements

2019-08-07 11:43:22 1571

原创 centos yum方式安装mysql

1.下载 mysql源安装包wget http://dev.mysql.com/get/mysql57-community-release-el7-8.noarch.rpm2.安装mysql源yum localinstall mysql57-community-release-el7-8.noarch.rpm 3,检查mysql源是否安装成功yum repolist enable...

2019-08-07 11:35:10 274

flume-ng-sql-source-1.5.3.jar

flume-ng-sql-source-1.5.3.jar,flume采集mysql数据jar包,将此文件拖入FLUME_HOME/lib目录下,如果是CM下CDH版本的flume,则放到/opt/cloudera/parcels/CDH-xxxx/lib/flume-ng/lib下,同样需要的包还有mysql-connector-java-5.1.XX-bin.jar,也需要一并放入。

2019-11-26

series1.csv

ARIMA模型入门学习用数据

2019-09-24

sentiment.csv

历年美国消费者信心指数

2019-09-23

数据降维.rar

本资源包含python实现的LDA和PCA数据降维算法,包含测试数据,下载后直接使用。供学习参考

2019-08-19

新建文本文档.txt

数据包含1960-2010大部分国家人口数据,格式为json

2019-05-13

Adobe套餐破解——百度云

After Effects CC 2017 v14.0.0 Win64 Photoshop CC 2017 v18.0.0 Win64 Premiere Pro CC 2017 v11.0 Win64 破解

2019-04-24

vm虚拟机centos6.4百度云盘下载地址(永久有效)

VMware上的centos6.4虚拟机,直接下载解压导入即可使用

2018-03-11

python入门教程配套视频全集

小牛学堂大学生大数据应用创新大赛培训视频配套pdf,学完入门

2017-10-14

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除