巷子里的猫X-CSDN博客

原创数据指标体系

数据的核心作用之一就是，监控业务的发展变化，从数据中发现潜在的业务问题。在实现通过数据监控业务变化这项功能时，数据指标体系会发挥强大作用。

2023-10-04 00:16:00 1416

原创容器技术Docker

Docker 是一个开源的应用容器引擎，让开发者可以打包他们的应用以及依赖包到一个可移植的镜像中，然后发布到任何流行的 Linux或Windows操作系统的机器上，也可以实现虚拟化。容器是完全使用沙箱机制，相互之间不会有任何接口。

2023-03-30 17:03:53 1267 3

原创机器学习 —— 聚类算法

聚类分析又称群分析，它是研究（样品或指标）分类问题的一种统计分析方法，同时也是数据挖掘的一个重要算法。聚类（Cluster）分析是由若干模式（Pattern）组成的，通常，模式是一个度量（Measurement）的向量，或者是多维空间中的一个点。聚类分析以相似性为基础，在一个聚类中的模式之间比不在同一聚类中的模式之间具有更多的相似性。

2022-11-14 16:57:56 3017

原创机器学习 —— 计算评估指标

AUC是一个模型评价指标，用于二分类模型的评价。AUC是“Area under Curve（曲线下的面积）”的英文缩写，而这条“Curve（曲线）”就是ROC曲线。

2022-11-14 16:29:53 857

原创机器学习 —— PCA降维和交叉验证

什么是PCA降维：降维，顾名思义，是要把一个M维的数据降为K维，为了方便表示，这里可以表示为将M维的N条样本转化为K维的N条样本，即把一个N*M的矩阵X转换为N*K的矩阵Y。

2022-11-14 08:59:37 799

原创机器学习 —— 支持向量机SVM（Support Vector Machine）

Support Vector Machine。支持向量机，其含义是通过支持向量运算的分类器。其中“机”的意思是机器，可以理解为分类器。那么什么是支持向量呢？在求解的过程中，会发现只根据部分数据就可以确定分类器，这些数据称为支持向量。

2022-11-09 15:57:16 1354

原创机器学习 —— 朴素贝叶斯

朴素贝叶斯法（Naive Bayes model）是基于贝叶斯定理与特征条件独立假设的分类方法

2022-11-07 17:11:22 948

原创机器学习 —— DecisionTree决策树

不同于逻辑斯蒂回归和贝叶斯算法，决策树的构造过程不依赖领域知识，它使用属性选择度量来选择将元组最好地划分成不同的类的属性。所谓决策树的构造就是进行属性选择度量确定各个特征属性之间的拓扑结构。

2022-11-04 19:03:02 937

原创机器学习 —— 逻辑回归简单介绍与使用

Logistic Regression虽然名字里带“回归”，但是它实际上是一种分类方法，用于两分类问题（即输出只有两种）。

2022-11-03 19:30:13 338

原创机器学习 —— 线性回归简单使用

分类的目标变量是标称型数据，而回归将会对连续型的数据做出预测。

2022-11-02 17:12:48 1005

原创机器学习 —— K-近邻算法（KNN）

邻近算法，或者说K最邻近（KNN，K-NearestNeighbor）分类算法是数据挖掘分类技术中最简单的方法之一。所谓K最近邻，就是K个最近的邻居的意思，说的是每个样本都可以用它最接近的K个邻近值来代表。近邻算法就是将数据集合中每一个记录进行分类的方法

2022-10-31 20:19:04 1487

原创机器学习入门 —— KNN 算法

机器学习入门 —— KNN 算法：邻近算法，或者说K最邻近（KNN，K-NearestNeighbor）分类算法是数据挖掘分类技术中最简单的方法之一。所谓K最近邻，就是K个最近的邻居的意思，说的是每个样本都可以用它最接近的K个邻近值来代表。近邻算法就是将数据集合中每一个记录进行分类的方法

2022-10-31 19:50:08 449

原创 Kettle基本使用（七） —— 脚本 & 作业 & 参数的使用

Kettle基本使用之脚本 & 作业 & 参数的使用

2022-10-26 20:12:19 8476

原创 Kettle基本使用（六） —— 连接 & 统计 & 映射的使用

Kettle基本使用之连接 & 统计 & 映射的使用

2022-10-26 19:50:10 4945

原创 Kettle基本使用（五） —— 流程 & 查询的使用

Kettle基本使用之流程 & 查询的使用

2022-10-25 20:22:55 4381 1

原创 Kettle基本使用（四） —— 应用的使用

Kettle基本使用之应用的使用

2022-10-25 19:49:46 1262

原创 Kettle基本使用（三） —— 转换的使用

Kettle基本使用之转换的使用

2022-10-25 19:38:36 3470

原创 Kettle基本使用（二） —— 输出的使用

Kettle基本使用（二） —— 输出的使用

2022-10-24 20:16:40 3090

原创 Kettle基本使用（一） —— 输入的使用

Kettle简单使用之输入的使用

2022-10-24 19:49:43 3747 1

原创 Kettle基础认识与环境搭建

Kettle 是一款国外开源的 ETL 工具，纯 java 编写；Kettle 被 Pentaho 公司收购后更名为 PDI，Pentaho Data Intergration，数据集成。

2022-10-24 19:11:30 1886

原创 PySpark —— 调用 Pandas 函数

PySpark 调用 Pandas 函数

2022-10-22 09:26:26 1172

原创 PySpark —— 流计算

流计算(或流处理)，处理在线的实时数据，单次处理数据量小，速度较快

2022-10-22 09:04:04 479

原创 PySpark —— 逻辑回归

逻辑回归又称对数几率回归，是一种广义的线性回归分析模型

2022-10-20 19:42:22 1293 1

原创 PySpark——性能调优

PySpark——性能调优

2022-10-20 18:58:13 1390 1

原创 PySpark基础 —— SparkSQL

PySpark基础 —— SparkSQL

2022-10-18 18:52:55 3653 1

原创 PySpark基础 —— RDD

Python——PySpark基础

2022-10-17 20:13:29 1943

原创 Hive 执行计划 & 性能调优

Hive 执行计划 & 性能调优

2022-10-14 19:10:52 1292 1

原创 Hive SQL——explode拆分函数&多行(列)合并为一行(列)&reflect函数

Hive SQL —— explode 拆分函数

2022-10-13 19:17:51 4358

原创 Hive常用函数

Hive 常用函数

2022-10-12 14:30:45 659

原创 Hive SQL

Hive SQL

2022-10-11 18:50:20 683

原创 Hive基础知识

Hive基础知识

2022-10-11 16:16:56 724

原创 Linux 常用命令

Linux 常用命令

2022-10-10 21:11:15 420

原创 Hadoop常用命令

Hadoop 常用命令

2022-10-10 21:06:52 943

原创数据可视化——Pyecharts

数据可视化——Pyecharts

2022-10-08 15:10:36 2414

原创 RFM模型分析

RFM模型简介

2022-10-08 10:04:32 1166 1

原创数据分析——Seaborn数据可视化

数据分析——Seaborn数据可视化

2022-09-29 16:56:15 2055

原创数据分析——Matplotlib数据可视化

数据分析——Matplotlib数据可视化

2022-09-28 10:10:28 795

原创数据分析——Pandas（进阶）

数据分析——Pandas进阶

2022-09-26 11:45:58 3169

原创数据分析——Pandas（基础）

数据分析——Pandas入门

2022-09-22 19:03:48 1609

原创 NumPy入门知识点

Numpy入门

2022-09-20 17:40:33 3045

Mac 免费解压软件 支持M1 M2

Mac OS 安装 finalshell

Mac OS下载 dbeaver-ce-22.2.1

空空如也

Mac 免费解压软件支持M1 M2