- 博客(57)
- 收藏
- 关注
原创 数据指标体系
数据的核心作用之一就是,监控业务的发展变化,从数据中发现潜在的业务问题。在实现通过数据监控业务变化这项功能时,数据指标体系会发挥强大作用。
2023-10-04 00:16:00 1416
原创 容器技术Docker
Docker 是一个开源的应用容器引擎,让开发者可以打包他们的应用以及依赖包到一个可移植的镜像中,然后发布到任何流行的 Linux或Windows操作系统的机器上,也可以实现虚拟化。容器是完全使用沙箱机制,相互之间不会有任何接口。
2023-03-30 17:03:53 1267 3
原创 机器学习 —— 聚类算法
聚类分析又称群分析,它是研究(样品或指标)分类问题的一种统计分析方法,同时也是数据挖掘的一个重要算法。聚类(Cluster)分析是由若干模式(Pattern)组成的,通常,模式是一个度量(Measurement)的向量,或者是多维空间中的一个点。聚类分析以相似性为基础,在一个聚类中的模式之间比不在同一聚类中的模式之间具有更多的相似性。
2022-11-14 16:57:56 3017
原创 机器学习 —— 计算评估指标
AUC是一个模型评价指标,用于二分类模型的评价。AUC是“Area under Curve(曲线下的面积)”的英文缩写,而这条“Curve(曲线)”就是ROC曲线。
2022-11-14 16:29:53 857
原创 机器学习 —— PCA降维和交叉验证
什么是PCA降维:降维,顾名思义,是要把一个M维的数据降为K维,为了方便表示,这里可以表示为将M维的N条样本转化为K维的N条样本,即把一个N*M的矩阵X转换为N*K的矩阵Y。
2022-11-14 08:59:37 799
原创 机器学习 —— 支持向量机SVM(Support Vector Machine)
Support Vector Machine。支持向量机,其含义是通过支持向量运算的分类器。其中“机”的意思是机器,可以理解为分类器。 那么什么是支持向量呢?在求解的过程中,会发现只根据部分数据就可以确定分类器,这些数据称为支持向量。
2022-11-09 15:57:16 1354
原创 机器学习 —— DecisionTree决策树
不同于逻辑斯蒂回归和贝叶斯算法,决策树的构造过程不依赖领域知识,它使用属性选择度量来选择将元组最好地划分成不同的类的属性。所谓决策树的构造就是进行属性选择度量确定各个特征属性之间的拓扑结构。
2022-11-04 19:03:02 937
原创 机器学习 —— 逻辑回归 简单介绍与使用
Logistic Regression虽然名字里带“回归”,但是它实际上是一种分类方法,用于两分类问题(即输出只有两种)。
2022-11-03 19:30:13 338
原创 机器学习 —— K-近邻算法(KNN)
邻近算法,或者说K最邻近(KNN,K-NearestNeighbor)分类算法是数据挖掘分类技术中最简单的方法之一。所谓K最近邻,就是K个最近的邻居的意思,说的是每个样本都可以用它最接近的K个邻近值来代表。近邻算法就是将数据集合中每一个记录进行分类的方法
2022-10-31 20:19:04 1487
原创 机器学习入门 —— KNN 算法
机器学习入门 —— KNN 算法:邻近算法,或者说K最邻近(KNN,K-NearestNeighbor)分类算法是数据挖掘分类技术中最简单的方法之一。所谓K最近邻,就是K个最近的邻居的意思,说的是每个样本都可以用它最接近的K个邻近值来代表。近邻算法就是将数据集合中每一个记录进行分类的方法
2022-10-31 19:50:08 449
原创 Kettle基础认识与环境搭建
Kettle 是一款国外开源的 ETL 工具,纯 java 编写;Kettle 被 Pentaho 公司收购后更名为 PDI,Pentaho Data Intergration,数据集成。
2022-10-24 19:11:30 1886
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人