WilenWu-CSDN博客

原创线性代数的本质(一)——向量空间

高中数学A版选修4-2 矩阵与变换《线性代数及其应用》(第五版)《高等代数简明教程》- 蓝以中。

2023-09-11 00:19:26 1780 4

原创偏微分方程(Partial Differential Equation I)

高等数学偏微分方程波动方程

2020-04-07 16:50:54 12319

原创常微分方程(Ordinary Differential Equation I)

高等数学，微分方程，常微分方程，偏微分方程

2019-05-02 12:36:35 45047 3

原创 KaTeX 数学符号列表

数学符号希腊字母LaTexKaTex===is equal to=≠\ne̸=is not equal to\ne≈\approx≈is approximately equal to\approx+++plus+−-−minus-±;∓\pm; \mp±;∓plus-minus; minus-plus\pm; \mp...

2019-04-22 18:37:20 18832 4

原创大数据手册(Hive)--HiveQL

目录HIVE命令HIVE数据类型HIVE内置运算符HiveQL常用语句创建/删除数据库创建/删除表修改表结构导入数据插入数据查询语句其他常用命令HIVE常用内置函数Hive视图和索引hive性能调优Hive是一个数据仓库基础工具在Hadoop中用来处理结构化数据。它架构在Hadoop之上，总归为大数据，并使得查询和分析方便。HIVE命...

2018-07-03 17:57:36 14639 1

原创 Python手册(Python Basics)--Python基础

Python 是一种易于学习又功能强大的编程语言。它提供了高效的高层次的数据结构，还有简单有效的面向对象编程。Python 优雅的语法和动态类型，以及解释型语言的本质，使它成为在很多领域多数平台上写脚本和快速开发应用的理想语言。

2018-05-09 00:10:30 11063 1

EM算法极大似然估计极大似然估计：(maximum likelihood estimate, MLE) 是一种常用的模型参数估计方法。它假设观测样本出现的概率最大，也即样本联合概率（也称似然函数）取得最大值。为求解方便，对样本联合概率取对数似然函数log⁡L(θ)=log⁡P(X∣θ)=∑i=1Nlog⁡P(xi∣θ)\log L(\theta) =\log\mathbb P(X|\theta)=\sum_{i=1}^N\log \mathbb P(\mathbf x_i|\theta)log

2024-07-11 11:20:52 1383

原创线性和二次判别分析

线性判别分析（Linear Discriminant Analysis，LDA）亦称 Fisher 判别分析。其基本思想是：将训练样本投影到低维超平面上，使得同类的样例尽可能近，不同类的样例尽可能远。在对新样本进行分类时，将其投影到同样的超平面上，再根据投影点的位置来确定新样本的类别。给定的数据集D{(x1y1x2y2⋯xNyN)}包含N个样本，p个特征。其中，第i个样本的特征向量为xixi1xi2⋯xip。

2024-06-25 21:50:34 1695

原创监督学习(二)线性分类

每个样本都有标签的机器学习称为监督学习。根据标签数值类型的不同，监督学习又可以分为回归问题和分类问题。分类和回归是监督学习的核心问题。

2024-06-24 23:53:41 1324

转载机器学习(V)--无监督学习(六)流形学习

title: 机器学习(V)–无监督学习(二)流形学习date:katex: truecategories:Artificial IntelligenceMachine Learningtags:机器学习cover: /img/ML-unsupervised-learning.pngtop_img: /img/artificial-intelligence.jpgabbrlink: 26cd5aa6description:流形学习【降维技巧 | 导论与流形学习 | 中文字幕

2024-06-21 21:03:32 1453

原创机器学习(V)--无监督学习(一)聚类

根据训练样本中是否包含标签信息，机器学习可以分为监督学习和无监督学习。聚类算法是典型的无监督学习，目的是想将那些相似的样本尽可能聚在一起，不相似的样本尽可能分开。

2024-06-16 22:35:30 1607 1

原创机器学习(V)--无监督学习(二)主成分分析

当数据的维度很高时，很多机器学习问题变得相当困难，这种现象被称为维度灾难（curse of dimensionality）。在很多实际的问题中，虽然训练数据是高维的，但是与学习任务相关也许仅仅是其中的一个低维子空间，也称为一个低维嵌入，例如：数据属性中存在噪声属性、相似属性或冗余属性等，对高维数据进行降维（dimension reduction）能在一定程度上达到提炼低维优质属性或降噪的效果。常见的降维方法除了特征选择以外，还有维度变换，即将原始的高维特征空间映射到低维子空间（subspace），并尽量

2024-06-16 22:34:29 1812 2

原创 PySpark特征工程(III)--特征选择

本章介绍了很多特征选择方法单变量特征选择可以用于理解数据、数据的结构、特点，也可以用于排除不相关特征，但是它不能发现冗余特征。正则化的线性模型可用于特征理解和特征选择。但是它需要先把特征转换成正态分布。嵌入法的特征重要性选择是一种非常流行的特征选择方法，它易于使用。但它有两个主要问题：重要的特征有可能得分很低（关联特征问题）这种方法对类别多的特征越有利（偏向问题）至此，经典的特征工程至此已经完结了，我们继续使用XGBoost模型评估筛选后的特征。保存数据集。

2024-06-04 20:53:16 1596

原创 PySpark特征工程(II)--特征构造

合并之前创造的特征缺失值处理len1.1%")return dfsumlen我们继续使用XGBoost模型评估创造的新特征特征重要性保存数据集。

2024-06-04 20:52:29 1131

原创 PySpark特征工程(I)--数据预处理

有这么一句话在业界广泛流传：数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限而已。由此可见，特征工程在机器学习中占有相当重要的地位。在实际应用当中，可以说特征工程是机器学习成功的关键。特征工程是数据分析中最耗时间和精力的一部分工作，它不像算法和模型那样是确定的步骤，更多是工程上的经验和权衡。因此没有统一的方法。这里只是对一些常用的方法做一个总结。

2024-06-04 20:51:16 2048 1

原创大数据手册 (Spark)--PySpark机器学习Demo

StringIndexer 索引的范围从 0 开始，索引构建的顺序为字符标签的频率，优先编码频率较大的标签，所以出现频率最高的标签为 0。这是一个二分类问题，先定义一个提取正样本得分的函数。

2024-05-17 21:52:52 795 2

原创大数据手册(Spark)--Spark 简介

PySpark是Apache Spark的Python API。它使您能够使用Python在分布式环境中执行实时、大规模的数据处理。PySpark支持Spark的所有功能，如Spark SQL、DataFrames、结构化流、机器学习（MLlib）和Spark Core。Spark SQL是Spark处理结构化数据的模块，它提供了结构化抽象 DataFrame。是分布式 Pandas API。用于增量计算和流处理用于分布式环境下的机器学习Spark Core是该平台的基础。

2024-05-09 21:56:28 985 1

原创分布式机器学习

LightGBM的参数比SynapseML公开的要多得多，若要添加额外的参数，请使用passThroughArgs字符串参数配置。您可以混合passThroughArgs和显式args，SynapseML合并它们以创建一个要发送到LightGBM的参数字符串。如果您在两个地方都设置参数，则以passThroughArgs为优先。

2024-04-26 22:14:16 542 3

原创增量学习 Demo

4f.4f以下全部更新。

2024-04-23 15:59:37 796

原创机器学习基本流程

PSI(Population Stability Index)指标反映了实际分布(actual)与预期分布(expected)的差异。在建模中，我们常用来筛选特征变量、评估模型稳定性。其中，在建模时通常以训练样本(In the Sample, INS)作为预期分布，而验证样本在各分数段的分布通常作为实际分布。超参数调优算法主要有网格搜索(Grid Search)，随机搜索(Randomized Search)和贝叶斯优化(Bayesian Optimization)，本文采用贝叶斯优化。

2024-04-20 23:58:30 1736 2

原创 focal_loss

【代码】focal_loss。

2024-04-18 20:44:30 320

原创特征工程(V)--时间序列特征

有这么一句话在业界广泛流传：数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限而已。由此可见，特征工程在机器学习中占有相当重要的地位。在实际应用当中，可以说特征工程是机器学习成功的关键。特征工程是数据分析中最耗时间和精力的一部分工作，它不像算法和模型那样是确定的步骤，更多是工程上的经验和权衡。因此没有统一的方法。这里只是对一些常用的方法做一个总结。

2024-04-15 00:32:48 2094

原创特征工程(IV)--特征选择

现在我们已经有大量的特征可使用，有的特征携带的信息丰富，有的特征携带的信息有重叠，有的特征则属于无关特征，尽管在拟合一个模型之前很难说哪些特征是重要的，但如果所有特征不经筛选地全部作为训练特征，经常会出现维度灾难问题，甚至会降低模型的泛化性能（因为较无益的特征会淹没那些更重要的特征）。因此，我们需要进行特征筛选，排除无效/冗余的特征，把有用的特征挑选出来作为模型的训练数据。过滤法（Filter）比较简单，它按照特征的发散性或者相关性指标对各个特征进行评分，设定评分阈值或者待选择阈值的个数，选择合适特征。

2024-04-15 00:31:03 1719

原创特征工程(III)--特征构造

有这么一句话在业界广泛流传：数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限而已。由此可见，特征工程在机器学习中占有相当重要的地位。在实际应用当中，可以说特征工程是机器学习成功的关键。特征工程是数据分析中最耗时间和精力的一部分工作，它不像算法和模型那样是确定的步骤，更多是工程上的经验和权衡。因此没有统一的方法。这里只是对一些常用的方法做一个总结。

2024-04-10 23:58:43 1643

原创特征工程(I)--探索性数据分析

有这么一句话在业界广泛流传：数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限而已。由此可见，特征工程在机器学习中占有相当重要的地位。在实际应用当中，可以说特征工程是机器学习成功的关键。特征工程是数据分析中最耗时间和精力的一部分工作，它不像算法和模型那样是确定的步骤，更多是工程上的经验和权衡。因此没有统一的方法。这里只是对一些常用的方法做一个总结。

2024-04-06 21:43:56 2296 3

原创特征工程(II)--数据预处理

导入必要的包import numpy as npimport pandas as pdimport refrom sklearn.base import BaseEstimator, TransformerMixinfrom sklearn.utils.validation import check_X_y, check_is_fittedfrom sklearn.preprocessing import FunctionTransformerfrom sklearn.compose impo

2024-04-06 21:00:46 935

原创 Python手册(Machine Learning)--XGBoost

xgboost 在 xgb.train中通过参数obj和custom_metric来自定损失函数和评估函数。自定义损失函数接受predt和dtrain作为输入，返回损失函数的一阶(grad)和二阶(hess)导数。'''自定义损失函数后，模型的输出不在是 [0,1] 概率输出，而是 sigmoid 函数之前的输入值。因此，需要写出对应的评估函数。评估函数也接受predt和dtrain作为输入，返回本身的名称和浮点值作为结果。

2024-03-28 22:44:38 2204

原创机器学习(II)--样本不平衡

现实中，样本（类别）样本不平衡（class-imbalance）是一种常见的现象，如：金融欺诈交易检测，欺诈交易的订单样本通常是占总交易数量的极少部分，而且对于有些任务而言少数样本更为重要。一般地，样本类别比例（Imbalance Ratio）（多数类vs少数类）严重不平衡时，分类算法将开始做出有利于多数类的预测。

2024-03-01 08:59:47 1308

原创 Python手册(Machine Learning)--LightGBM

LightGBM（Light Gradient Boosting Machine）是一种高效的 Gradient Boosting 算法，主要用于解决GBDT在海量数据中遇到的问题，以便更好更快的用于工业实践中。而在实际建模环节，LGBM支持Python、Java、C++等多种编程语言进行调用，并同时提供了Sklearn API和原生API两套调用方法。

2024-02-27 16:13:28 4471

原创超参数优化

我们使用dict()说明用于分类参数，返回options 中的元素返回 (probability, option) 元素对返回区间 [low, upper) 内的随机整数均匀返回 low, high 之间的浮点数均匀返回 low, high 之间的浮点数，适用于离散值均匀返回 low, high 之间均的整数，适用于离散值对数均匀返回 elow,ehigh之间浮点数对数均匀返回 elow, ehigh之间浮点数，适用于离散值正态分布返回实数正态分布返回实数，适用于离散值。

2024-02-22 09:36:29 2768

原创线性代数的本质(十一)——复数矩阵

极大线性无关组包含的向量个数为向量组的秩。(3) 一个向量组的任意两个极大线性无关组中包含的向量个数相同，称为向量组的。如果其中的每个向量都能被另一个向量组线性表示，则两个向量组。(1) 一个向量组的极大线性无关组不一定是惟一的；(2) 一个向量组与它的极大线性无关组是等价的；向量组中任意一个向量都不能由其余向量线性表示。全由零向量组成的向量组的秩为零；(5) 两个等价的向量组生成的向量空间相同。向量组中存在向量能被其余向量线性表示。(4) 两个线性等价的向量组的秩相等；个向量组成的向量组都线性相关。

2023-09-13 22:50:33 3710

原创线性代数的本质(十)——矩阵分解

文章目录矩阵分解LU分解QR分解特征值分解奇异值分解奇异值分解矩阵的基本子空间奇异值分解的性质矩阵的外积展开式矩阵分解矩阵的因式分解是把矩阵表示为多个矩阵的乘积，这种结构更便于理解和计算。LU分解设 AAA 是 m×nm\times nm×n 矩阵，若 AAA 可以写成乘积A=LUA=LUA=LU其中，LLL 为 mmm 阶下三角方阵，主对角线元素全是1。UUU 为 AAA 得到一个行阶梯形矩阵。这样一个分解称为LU分解。 LLL 称为单位下三角方阵。我们先来看看，LU分解的一个应用。当

2023-09-13 22:47:42 1383

原创线性代数的本质(九)——二次型与合同

当然，也可通过两个向量的内积在不同的坐标系中的计算公式获得两个度量矩阵间的关系。由过渡矩阵知道，同一个向量从 Jennifer 的坐标到 Grant 的坐标变换公式为。从上节可以看出二次型的标准型是不唯一的，但二次型的秩是唯一的，在化成标准型的过程中是不变的，即标准型中含有的非零平方项的个数是不变的。由解析几何的知识，我们了解到二次函数的一次项和常数项只是对函数图像进行平移，并不会改变图形的形状和大小。而二次函数的二次项控制函数图像的大小和形状。显然，合同矩阵即为二次型在不同基下的矩阵。

2023-09-13 22:40:00 2229

原创线性代数的本质(八)——内积空间

文章目录内积空间内积空间正交矩阵与正交变换正交投影施密特正交化实对称矩阵的对角化内积空间内积空间三维几何空间是线性空间的一个重要例子，如果分析一下三维几何空间，我们就会发现它还具有一般线性空间不具备的重要性质：三维几何空间中向量有长度和夹角，这称为三维几何空间的度量性质。现在，我们在一般线性空间中引入度量有关的概念。我们知道三维几何空间中向量的长度和夹角可由向量的内积来决定。内积就是一个函数，它把向量对u,v\mathbf u,\mathbf vu,v 映射成一个数。在向量空间 VVV 中，将内积运

2023-09-13 22:32:35 4401

空空如也

空空如也