自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(102)
  • 资源 (2)
  • 问答 (1)
  • 收藏
  • 关注

原创 sklearn转换器和估计器

2、estimator.fit(x_train, y_train)计算。在sklearn中,估计器是一个重要的角色,是一类实现了算法的API。调用fit_transform()1、实例化一个estimator。-----调用完毕,模型生成。3、用于无监督学习的估计器。2、用于回归的估计器。

2024-08-20 18:41:35 312

原创 scikit-learn特征降维

数据中包含冗余或相关变量(或称特征、属性、指标等),旨在从原有特征中找出主要特征定义:高维数据转换为低维数据的过程,在此过程中可能会舍弃原有数据、创造新的变量作用:是数据维数的压缩,尽可能降低原数据的维数(复杂度),损失少量信息应用:回归分析或者聚类分析中。

2024-08-20 16:39:31 808

原创 scikit-learn特征预处理

通过对原始的数据进行变换把数据映射到(默认为[0,1]之间)注意最大值最小值是变化的,另外,最大值与最小值非常容易受到异常值影响,所以这种方法稳定性较差,只适合传统精确小数据场景通过对原始数据进行变换把数据变换到均值为0,标准差为1的范围内在已有样本足够多的情况下比较稳定,适合现代嘈杂大数据场景。

2024-08-19 19:11:25 569

原创 scikit-learn特征抽取

特征工程是使用专业背景知识和技巧处理数据,使得特征能在机器学习算法上发挥更好的作用的过程意义:会直接影响机器学习的效果将任意数据(如文本或图像)转换为可用于机器学习的数字特征注:特征值是为了计算机更好的去理解数据字典特征提取(特征离散化)文本特征提取图像特征提取(深度学习再介绍)

2024-08-19 13:31:13 679

原创 pip 安装 scikit-learn

【代码】pip 安装 scikit-learn。

2024-08-07 20:12:36 342

原创 python爬虫Selenium模块及测试案例详解

【代码】python爬虫Selenium模块及测试案例详解。

2024-07-17 21:01:12 1214

原创 python爬虫网页解析模块及测试案例详解

【代码】python爬虫网页解析模块及测试案例详解。

2024-07-13 16:59:47 553

原创 python网络爬虫之Urllib

urllib的request模块提供了最基本的构造HTTP请求的方法,使用它可以方便地实现请求的发送并得到响应,同时它还带有处理授权验证(authentication)、重定向(redirection)、浏览器Cookies以及其他内容。

2024-07-10 21:29:41 738

原创 python异常和文件

执行会新创建一个文件,如果文件存在会报错。

2024-07-09 20:40:57 242

原创 python对象

在类的代码块中,我们可以定义变量和函数# 在类中我们所定义的变量,将会成为所有的实例的公共属性# 所有实例都可以访问这些变量name = 'swk' # 公共属性,所有实例都可以访问# 在类中也可以定义函数,类中的定义的函数,我们称为方法# 这些方法可以通过该类的所有实例来访问# 方法每次被调用时,解析器都会自动传递第一个实参# 第一个参数,就是调用方法的对象本身,# 如果是p1调的,则第一个参数就是p1对象# 如果是p2调的,则第一个参数就是p2对象。

2024-07-08 20:46:10 790

原创 python函数

def fn() :print('这是我的第一个函数!')print('今天天气真不错!')

2024-07-03 21:04:05 836

原创 python序列

字典的每个键值 key=>value 对用冒号 : 分割,每个对之间用逗号(,)分割,整个字典包括在花括号 {} 中。可以使用大括号 { } 创建集合,元素之间用逗号 , 分隔, 或者也可以使用 set() 函数创建集合。与字符串的索引一样,列表索引从 0 开始,第二个索引是 1,依此类推。集合中的元素不会重复,并且可以进行交集、并集、差集等常见的集合操作。Python 的元组与列表类似,不同之处在于元组的元素不能修改。元组创建很简单,只需要在括号中添加元素,并使用逗号隔开即可。

2024-06-30 21:01:56 536

原创 python流程控制语句

Python for 循环可以遍历任何可迭代对象,如一个列表或者一个字符串。

2024-06-30 10:29:41 253

原创 python入门

如果判断结果为False,则执行语句2,并返回执行结果。如果判断结果为True,则执行语句1,并返回执行结果。语法: 语句1 if 条件表达式 else 语句2。条件运算符在执行时,会先对条件表达式进行求值判断。

2024-06-26 22:05:25 679

原创 FlinkCEP复杂事件处理(Complex Event Processing)

所谓 CEP,其实就是“复杂事件处理(Complex Event Processing)”的缩写;而 Flink CEP,就是 Flink 实现的一个用于复杂事件处理的库(library)。那到底什么是“复杂事件处理”呢?就是可以在事件流里,检测到特定的事件组合并进行处理,比如说“连续登录失败”,或者“订单支付超时”等等。具体的处理过程是,把事件流中的一个个简单事件,通过一定的规则匹配组合起来,这就是“复杂事件”;然后基于这些满足规则的一组组复杂事件进行转换处理,得到想要的结果进行。

2024-06-02 21:17:47 725

原创 数据库架构设计的三种模式:share nothing , share everythong , share disk

数据库架构设计的三种模式:share nothing , share everythong , share disk

2024-05-28 19:48:43 357

原创 Flink的SQL开发

Table API和SQL是最上层的API,在Flink中这两种API被集成在一起,SQL执行的对象也是Flink中的表(Table),所以我们一般会认为它们是一体的。Flink是批流统一的处理框架,无论是批处理(DataSet API)还是流处理(DataStream API),在上层应用中都可以直接使用Table API或者SQL来实现;这两种API对于一张表执行相同的查询操作,得到的结果是完全一样的

2024-01-29 12:52:14 1450

原创 FlinkAPI开发之FlinkSQL

这里的依赖是一个Java的“桥接器”(bridge),主要就是负责Table API和下层DataStream API的连接支持,按照不同的语言分为Java版和Scala版。

2024-01-24 13:17:14 1801

原创 Dinky安装和部署

Dinky 是一个开箱即用、易扩展,以 Apache Flink 为基础,连接 OLAP 和数据湖等众多框架的一站式实时计算平台,致力于流批一体和湖仓一体的探索与实践。

2024-01-21 14:57:30 2429

原创 FlinkAPI开发之容错机制

既然是端到端的exactly-once,我们依然可以从三个组件的角度来进行分析:(1)Flink内部Flink内部可以通过检查点机制保证状态和处理结果的exactly-once语义。(2)输入端输入数据源端的Kafka可以对数据进行持久化保存,并可以重置偏移量(offset)。所以我们可以在Source任务(FlinkKafkaConsumer)中将当前读取的偏移量保存为算子状态,写入到检查点中;

2024-01-18 13:56:47 1241

原创 FlinkAPI开发之状态管理

Flink的状态有两种:托管状态(Managed State)和原始状态(Raw State)。托管状态就是由Flink统一管理的,状态的存储访问、故障恢复和重组等一系列问题都由Flink实现,我们只要调接口就可以;而原始状态则是自定义的,相当于就是开辟了一块内存,需要我们自己管理,实现状态的序列化和故障恢复。通常我们采用Flink托管状态来实现需求。

2024-01-18 13:15:12 1315

原创 FlinkAPI开发之水位线(Watermark)

在Flink中,用来衡量事件时间进展的标记,就被称作“水位线”(Watermark)。具体实现上,水位线可以看作一条特殊的数据记录,它是插入到数据流中的一个标记点,主要内容就是一个时间戳,用来指示当前的事件时间。而它插入流中的位置,就应该是在某个数据到来之后;这样就可以从这个数据中提取时间戳,作为当前水位线的时间戳了。周期性生成器一般是通过onEvent()观察判断输入的事件,而在onPeriodicEmit()里发出水位线

2024-01-16 14:10:38 1176

原创 FlinkAPI开发之处理函数

之前所介绍的流处理API,无论是基本的转换、聚合,还是更为复杂的窗口操作,其实都是基于DataStream进行转换的,所以可以统称为DataStream API。在Flink更底层,我们可以不定义任何具体的算子(比如map,filter,或者window),而只是提炼出一个统一的“处理”(process)操作——它是所有转换算子的一个概括性的表达,可以自定义处理逻辑,所以这一层接口就被叫作“处理函数”(process function)。

2024-01-16 14:08:52 1053

原创 FlinkAPI开发之窗口(Window)

Flink是一种流式计算引擎,主要是来处理无界数据流的,数据源源不断、无穷无尽。想要更加方便高效地处理无界流,一种方式就是将无限数据切割成有限的“数据块”进行处理,这就是所谓的“窗口”(Window)。

2024-01-10 14:36:09 1522

原创 FlinkAPI开发之数据合流

在实际应用中,我们经常会遇到来源不同的多条流,需要将它们的数据进行联合处理。所以Flink中合流的操作会更加普遍,对应的API也更加丰富。

2024-01-07 15:35:02 1814 1

原创 FlinkAPI开发之数据分流

绝大多数转换算子,输出的都是单一流,流里的数据类型只能有一种。而侧输出流可以认为是“主流”上分叉出的“支流”,所以可以由一条流产生出多条流,而且这些流中的数据类型还可以不一样。利用这个功能可以很容易地实现“分流”操作。

2024-01-07 10:47:32 461

原创 FlinkAPI开发之自定义函数UDF

用户自定义函数(user-defined function,UDF),即用户可以根据自身需求,重新实现算子的逻辑。。

2024-01-07 09:55:18 1313

原创 Flink自定义Source模拟数据流

Flink自定义Source模拟数据流。

2024-01-07 09:32:55 767

原创 JAVA集合框架总结

而Java 集合就像一种容器,可以`动态地`把多个对象的引用放入容器中

2024-01-05 14:36:02 999

原创 JAVA数组总结

Java 语言里提供了支持多维数组的语法。如果说可以把一维数组当成几何中的线性图形,那么二维数组就相当于是一个表格,像Excel中的表格、围棋棋盘一样。

2024-01-05 14:35:01 822

原创 java多线程及线程锁

为完成特定任务,用某种语言编写的一组指令的集合。即指一段静态的代码,静态对象。:程序的一次执行过程,或是正在内存中运行的应用程序。如:运行中的QQ,运行中的网易音乐播放器。:进程可进一步细化为线程,是程序内部的一条执行路径。一个进程中至少有一个线程。一个进程同一时间若并行执行多个线程,就是支持多线程的。线程作为。一个进程中的多个线程共享相同的内存单元,它们从同一个堆中分配对象,可以访问相同的变量和对象。这就使得线程间通信更简便、高效。但多个线程操作共享的系统资源可能就会带来安全的隐患。

2024-01-03 11:56:53 1137

原创 Unable to connect to Redis server

在没有为默认用户配置任何密码的情况下调用。你确定你的配置是正确的吗?

2024-01-03 11:22:04 1749

原创 Linux的常用命令及用法案例

curl 是一种使用 URL 从服务器传输数据或向服务器传输数据的工具。它支持以下协议:DICT、FILE、FTP、FTPS、GOPHER、GOPHERS、HTTP、HTTPS、IMAP、IMAPS、LDAPS、MQTT、POP3、POP3S、RTMP、RTMPS、RTSP、SCP、SFTP、SMB、SMBS、SMTP、SMTPS、TELNET、TFTP、WS 和 WSS。curl 由 libcurl 提供支持,用于所有与传输相关的功能。

2023-12-23 14:55:33 1177

原创 Shell编程从入门到实战

shell可以合并编程语言以控制进程和文件,以及启动和控制其他程序shell能够减少大量的重复输入和交互操作,能够进行批量的处理和自动化完成维护,减轻管理层的负担

2023-12-23 14:54:24 883

原创 hive企业级调优策略之CBO,谓词下推等优化

不幸的是,Hive并不会执行这种优化,因此,如果表足够大,那么这个查询就会出现不可控的情况。对于小数据集,执行时间可以明显被缩短。根据上述案例可以看出,CBO优化对于执行计划中join顺序是有影响的,其之所以会将province_info的join顺序提前,是因为province info的数据量较小,将其提前,会有更大的概率使得中间结果的数据量变小,从而使整个计算任务的数据量减小,也就是使计算成本变小。CBO优化也会完成一部分的谓词下推优化工作,因为在执行计划中,谓词越靠前,整个计划的计算成本就会越低。

2023-12-20 10:25:52 1475

原创 hive执行集群模式正常本地模式报错Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask

默认HADOOP_HEAPSIZE为256 (MB),设置成1024M。将hive-env.sh.template后缀.template去掉。

2023-12-19 21:00:54 443

原创 hive企业级调优策略之小文件合并

小文件合并优化,分为两个方面,分别是Map端输入的小文件合并,和Reduce端输出的小文件合并。

2023-12-19 15:44:06 621 1

原创 hive企业级调优策略之数据倾斜

数据倾斜问题,通常是指参与计算的数据分布不均,即某个key或者某些key的数据量远超其他key,导致在shuffle阶段,大量相同key的数据被发往同一个Reduce,进而导致该Reduce所需的时间远超其他Reduce,成为整个任务的瓶颈。

2023-12-19 14:35:55 1474

原创 hive企业级调优策略之Join优化

Hive拥有多种join算法,包括Common Join,Map Join,Bucket Map Join,Sort Merge Buckt Map Join等

2023-12-19 11:27:30 2012

原创 hive企业级调优策略之分组聚合优化

Hive对分组聚合的优化主要围绕着减少Shuffle数据量进行,具体做法是map-side聚合。所谓map-side聚合,就是在map端维护一个hash table,利用其完成部分的聚合,然后将部分聚合的结果,按照分组字段分区,发送至reduce端,完成最终的聚合。map-side聚合能有效减少shuffle的数据量,提高分组聚合运算的效率。

2023-12-19 11:23:45 1322

hive1.x版本连接DataGrip需要的jar包

hive1.x版本连接DataGrip需要的jar包

2021-09-15

hive3.0以上连接Datagrip所需要的jar包

hive3.0以上连接Datagrip所需要的jar包

2021-09-15

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除