自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(141)
  • 收藏
  • 关注

原创 线性代数的本质(一)——向量空间

高中数学A版选修4-2 矩阵与变换《线性代数及其应用》(第五版)《高等代数简明教程》- 蓝以中。

2023-09-11 00:19:26 785 3

原创 偏微分方程(Partial Differential Equation I)

高等数学偏微分方程波动方程

2020-04-07 16:50:54 7332

原创 常微分方程(Ordinary Differential Equation I)

高等数学,微分方程,常微分方程,偏微分方程

2019-05-02 12:36:35 24433 2

原创 KaTeX 数学符号列表

数学符号希腊字母LaTexKaTex===is equal to=≠\ne̸​=is not equal to\ne≈\approx≈is approximately equal to\approx+++plus+−-−minus-±;∓\pm; \mp±;∓plus-minus; minus-plus\pm; \mp...

2019-04-22 18:37:20 16012 4

原创 大数据手册(Hive)--HiveQL

目录HIVE命令HIVE数据类型HIVE内置运算符HiveQL常用语句创建/删除数据库创建/删除表修改表结构导入数据插入数据查询语句其他常用命令HIVE常用内置函数Hive视图和索引hive性能调优Hive是一个数据仓库基础工具在Hadoop中用来处理结构化数据。它架构在Hadoop之上,总归为大数据,并使得查询和分析方便。HIVE命...

2018-07-03 17:57:36 14044 1

原创 Python手册(Python Basics)--Python基础

Python 是一种易于学习又功能强大的编程语言。它提供了高效的高层次的数据结构,还有简单有效的面向对象编程。Python 优雅的语法和动态类型,以及解释型语言的本质,使它成为在很多领域多数平台上写脚本和快速开发应用的理想语言。

2018-05-09 00:10:30 10506 1

原创 机器学习(V)--无监督学习(三)EM算法

EM算法极大似然估计极大似然估计:(maximum likelihood estimate, MLE) 是一种常用的模型参数估计方法。它假设观测样本出现的概率最大,也即样本联合概率(也称似然函数)取得最大值。为求解方便,对样本联合概率取对数似然函数log⁡L(θ)=log⁡P(X∣θ)=∑i=1Nlog⁡P(xi∣θ)\log L(\theta) =\log\mathbb P(X|\theta)=\sum_{i=1}^N\log \mathbb P(\mathbf x_i|\theta)log

2024-07-11 11:20:52 903

原创 线性和二次判别分析

线性判别分析(Linear Discriminant Analysis,LDA)亦称 Fisher 判别分析。其基本思想是:将训练样本投影到低维超平面上,使得同类的样例尽可能近,不同类的样例尽可能远。在对新样本进行分类时,将其投影到同样的超平面上,再根据投影点的位置来确定新样本的类别。给定的数据集D{(x1​y1​x2​y2​⋯xN​yN​)}包含N个样本,p个特征。其中,第i个样本的特征向量为xi​xi1​xi2​⋯xip。

2024-06-25 21:50:34 834

原创 监督学习(二)线性分类

每个样本都有标签的机器学习称为监督学习。根据标签数值类型的不同,监督学习又可以分为回归问题和分类问题。分类和回归是监督学习的核心问题。

2024-06-24 23:53:41 994

原创 机器学习(V)--无监督学习(六)流形学习

title: 机器学习(V)–无监督学习(二)流形学习date:katex: truecategories:Artificial IntelligenceMachine Learningtags:机器学习cover: /img/ML-unsupervised-learning.pngtop_img: /img/artificial-intelligence.jpgabbrlink: 26cd5aa6description:流形学习【降维技巧 | 导论与流形学习 | 中文字幕

2024-06-21 21:03:32 966

原创 机器学习(V)--无监督学习(一)聚类

根据训练样本中是否包含标签信息,机器学习可以分为监督学习和无监督学习。聚类算法是典型的无监督学习,目的是想将那些相似的样本尽可能聚在一起,不相似的样本尽可能分开。

2024-06-16 22:35:30 944

原创 机器学习(V)--无监督学习(二)主成分分析

当数据的维度很高时,很多机器学习问题变得相当困难,这种现象被称为维度灾难(curse of dimensionality)。在很多实际的问题中,虽然训练数据是高维的,但是与学习任务相关也许仅仅是其中的一个低维子空间,也称为一个低维嵌入,例如:数据属性中存在噪声属性、相似属性或冗余属性等,对高维数据进行降维(dimension reduction)能在一定程度上达到提炼低维优质属性或降噪的效果。常见的降维方法除了特征选择以外,还有维度变换,即将原始的高维特征空间映射到低维子空间(subspace),并尽量

2024-06-16 22:34:29 1230 2

原创 PySpark特征工程(III)--特征选择

本章介绍了很多特征选择方法单变量特征选择可以用于理解数据、数据的结构、特点,也可以用于排除不相关特征,但是它不能发现冗余特征。正则化的线性模型可用于特征理解和特征选择。但是它需要先把特征转换成正态分布。嵌入法的特征重要性选择是一种非常流行的特征选择方法,它易于使用。但它有两个主要问题:重要的特征有可能得分很低(关联特征问题)这种方法对类别多的特征越有利(偏向问题)至此,经典的特征工程至此已经完结了,我们继续使用XGBoost模型评估筛选后的特征。保存数据集。

2024-06-04 20:53:16 1143

原创 PySpark特征工程(II)--特征构造

合并之前创造的特征缺失值处理len1.1%")return dfsumlen我们继续使用XGBoost模型评估创造的新特征特征重要性保存数据集。

2024-06-04 20:52:29 839

原创 PySpark特征工程(I)--数据预处理

有这么一句话在业界广泛流传:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。由此可见,特征工程在机器学习中占有相当重要的地位。在实际应用当中,可以说特征工程是机器学习成功的关键。特征工程是数据分析中最耗时间和精力的一部分工作,它不像算法和模型那样是确定的步骤,更多是工程上的经验和权衡。因此没有统一的方法。这里只是对一些常用的方法做一个总结。

2024-06-04 20:51:16 1328 1

原创 大数据手册 (Spark)--PySpark机器学习Demo

StringIndexer 索引的范围从 0 开始,索引构建的顺序为字符标签的频率,优先编码频率较大的标签,所以出现频率最高的标签为 0。这是一个二分类问题,先定义一个提取正样本得分的函数。

2024-05-17 21:52:52 523 2

原创 大数据手册(Spark)--Spark 简介

PySpark是Apache Spark的Python API。它使您能够使用Python在分布式环境中执行实时、大规模的数据处理。PySpark支持Spark的所有功能,如Spark SQL、DataFrames、结构化流、机器学习(MLlib)和Spark Core。Spark SQL是Spark处理结构化数据的模块,它提供了结构化抽象 DataFrame。是分布式 Pandas API。用于增量计算和流处理用于分布式环境下的机器学习Spark Core是该平台的基础。

2024-05-09 21:56:28 537 1

原创 分布式机器学习

LightGBM的参数比SynapseML公开的要多得多,若要添加额外的参数,请使用passThroughArgs字符串参数配置。您可以混合passThroughArgs和显式args,SynapseML合并它们以创建一个要发送到LightGBM的参数字符串。如果您在两个地方都设置参数,则以passThroughArgs为优先。

2024-04-26 22:14:16 252 3

原创 增量学习 Demo

4f.4f以下全部更新。

2024-04-23 15:59:37 469

原创 机器学习基本流程

PSI(Population Stability Index)指标反映了实际分布(actual)与预期分布(expected)的差异。在建模中,我们常用来筛选特征变量、评估模型稳定性。其中,在建模时通常以训练样本(In the Sample, INS)作为预期分布,而验证样本在各分数段的分布通常作为实际分布。超参数调优算法主要有网格搜索(Grid Search),随机搜索(Randomized Search)和贝叶斯优化(Bayesian Optimization),本文采用贝叶斯优化。

2024-04-20 23:58:30 1479 2

原创 focal_loss

【代码】focal_loss。

2024-04-18 20:44:30 114

原创 特征工程(V)--时间序列特征

有这么一句话在业界广泛流传:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。由此可见,特征工程在机器学习中占有相当重要的地位。在实际应用当中,可以说特征工程是机器学习成功的关键。特征工程是数据分析中最耗时间和精力的一部分工作,它不像算法和模型那样是确定的步骤,更多是工程上的经验和权衡。因此没有统一的方法。这里只是对一些常用的方法做一个总结。

2024-04-15 00:32:48 1024

原创 特征工程(IV)--特征选择

现在我们已经有大量的特征可使用,有的特征携带的信息丰富,有的特征携带的信息有重叠,有的特征则属于无关特征,尽管在拟合一个模型之前很难说哪些特征是重要的,但如果所有特征不经筛选地全部作为训练特征,经常会出现维度灾难问题,甚至会降低模型的泛化性能(因为较无益的特征会淹没那些更重要的特征)。因此,我们需要进行特征筛选,排除无效/冗余的特征,把有用的特征挑选出来作为模型的训练数据。过滤法(Filter)比较简单,它按照特征的发散性或者相关性指标对各个特征进行评分,设定评分阈值或者待选择阈值的个数,选择合适特征。

2024-04-15 00:31:03 880

原创 特征工程(III)--特征构造

有这么一句话在业界广泛流传:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。由此可见,特征工程在机器学习中占有相当重要的地位。在实际应用当中,可以说特征工程是机器学习成功的关键。特征工程是数据分析中最耗时间和精力的一部分工作,它不像算法和模型那样是确定的步骤,更多是工程上的经验和权衡。因此没有统一的方法。这里只是对一些常用的方法做一个总结。

2024-04-10 23:58:43 868

原创 特征工程(I)--探索性数据分析

有这么一句话在业界广泛流传:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。由此可见,特征工程在机器学习中占有相当重要的地位。在实际应用当中,可以说特征工程是机器学习成功的关键。特征工程是数据分析中最耗时间和精力的一部分工作,它不像算法和模型那样是确定的步骤,更多是工程上的经验和权衡。因此没有统一的方法。这里只是对一些常用的方法做一个总结。

2024-04-06 21:43:56 1397 3

原创 特征工程(II)--数据预处理

导入必要的包import numpy as npimport pandas as pdimport refrom sklearn.base import BaseEstimator, TransformerMixinfrom sklearn.utils.validation import check_X_y, check_is_fittedfrom sklearn.preprocessing import FunctionTransformerfrom sklearn.compose impo

2024-04-06 21:00:46 339

原创 Python手册(Machine Learning)--XGBoost

xgboost 在 xgb.train中通过参数obj和custom_metric来自定损失函数和评估函数。自定义损失函数接受predt和dtrain作为输入,返回损失函数的一阶(grad)和二阶(hess)导数。'''自定义损失函数后,模型的输出不在是 [0,1] 概率输出,而是 sigmoid 函数之前的输入值。因此,需要写出对应的评估函数。评估函数也接受predt和dtrain作为输入,返回本身的名称和浮点值作为结果。

2024-03-28 22:44:38 1227

原创 机器学习(II)--样本不平衡

现实中,样本(类别)样本不平衡(class-imbalance)是一种常见的现象,如:金融欺诈交易检测,欺诈交易的订单样本通常是占总交易数量的极少部分,而且对于有些任务而言少数样本更为重要。一般地,样本类别比例(Imbalance Ratio)(多数类vs少数类)严重不平衡时,分类算法将开始做出有利于多数类的预测。

2024-03-01 08:59:47 819

原创 Python手册(Machine Learning)--LightGBM

LightGBM(Light Gradient Boosting Machine)是一种高效的 Gradient Boosting 算法, 主要用于解决GBDT在海量数据中遇到的问题,以便更好更快的用于工业实践中。而在实际建模环节,LGBM支持Python、Java、C++等多种编程语言进行调用,并同时提供了Sklearn API和原生API两套调用方法。

2024-02-27 16:13:28 1931

原创 超参数优化

我们使用dict()说明用于分类参数,返回options 中的元素返回 (probability, option) 元素对返回区间 [low, upper) 内的随机整数均匀返回 low, high 之间的浮点数均匀返回 low, high 之间的浮点数,适用于离散值均匀返回 low, high 之间均的整数,适用于离散值对数均匀返回 elow,ehigh之间浮点数对数均匀返回 elow, ehigh之间浮点数,适用于离散值正态分布返回实数正态分布返回实数,适用于离散值。

2024-02-22 09:36:29 1671

原创 线性代数的本质(十一)——复数矩阵

极大线性无关组包含的向量个数为向量组的秩。(3) 一个向量组的任意两个极大线性无关组中包含的向量个数相同,称为向量组的。如果其中的每个向量都能被另一个向量组线性表示,则两个向量组。(1) 一个向量组的极大线性无关组不一定是惟一的;(2) 一个向量组与它的极大线性无关组是等价的;向量组中任意一个向量都不能由其余向量线性表示。全由零向量组成的向量组的秩为零;(5) 两个等价的向量组生成的向量空间相同。向量组中存在向量能被其余向量线性表示。(4) 两个线性等价的向量组的秩相等;个向量组成的向量组 都线性相关。

2023-09-13 22:50:33 2443

原创 线性代数的本质(十)——矩阵分解

文章目录矩阵分解LU分解QR分解特征值分解奇异值分解奇异值分解矩阵的基本子空间奇异值分解的性质矩阵的外积展开式矩阵分解矩阵的因式分解是把矩阵表示为多个矩阵的乘积,这种结构更便于理解和计算。LU分解设 AAA 是 m×nm\times nm×n 矩阵,若 AAA 可以写成乘积A=LUA=LUA=LU其中,LLL 为 mmm 阶下三角方阵,主对角线元素全是1。UUU 为 AAA 得到一个行阶梯形矩阵。这样一个分解称为LU分解。 LLL 称为单位下三角方阵。我们先来看看,LU分解的一个应用。当

2023-09-13 22:47:42 810

原创 线性代数的本质(九)——二次型与合同

当然,也可通过两个向量的内积在不同的坐标系中的计算公式获得两个度量矩阵间的关系。由过渡矩阵知道,同一个向量从 Jennifer 的坐标到 Grant 的坐标变换公式为。从上节可以看出二次型的标准型是不唯一的,但二次型的秩是唯一的,在化成标准型的过程中是不变的,即标准型中含有的非零平方项的个数是不变的。由解析几何的知识,我们了解到二次函数的一次项和常数项只是对函数图像进行平移,并不会改变图形的形状和大小。而二次函数的二次项控制函数图像的大小和形状。显然,合同矩阵即为二次型在不同基下的矩阵。

2023-09-13 22:40:00 1406

原创 线性代数的本质(八)——内积空间

文章目录内积空间内积空间正交矩阵与正交变换正交投影施密特正交化实对称矩阵的对角化内积空间内积空间三维几何空间是线性空间的一个重要例子,如果分析一下三维几何空间,我们就会发现它还具有一般线性空间不具备的重要性质:三维几何空间中向量有长度和夹角,这称为三维几何空间的度量性质。现在,我们在一般线性空间中引入度量有关的概念。我们知道三维几何空间中向量的长度和夹角可由向量的内积来决定。内积就是一个函数,它把向量对u,v\mathbf u,\mathbf vu,v 映射成一个数。在向量空间 VVV 中,将内积运

2023-09-13 22:32:35 2090

原创 线性代数的本质(七)——特征值和特征向量

本章特征值和特征向量的概念只在方阵的范畴内探讨。

2023-09-13 22:21:32 491

原创 线性代数的本质(六)——线性空间

文章目录线性空间线性空间子空间坐标与同构线性变换与矩阵基变换与坐标变换线性空间线性空间Grant: 普适的代价是抽象。仔细分析就会发现,关于向量空间的一切概念及有关定理都不依赖于向量的具体表现形式(有序数组),也不依赖于向量加法、数乘的具体计算式,而只依赖于如下两点:向量的加法与数乘运算封闭;加法、数乘满足八条运算法则。这一事实告诉我们:可以把向量的有序数组这一具体表达形式及加法、数乘的具体计算式这些非本质的东西拋弃 ,只把最根本的八条运算法则保留下来。这时它们就不能从理论上给予证明,

2023-09-13 22:17:08 744

原创 线性代数的本质(五)——矩阵的运算

文章目录矩阵的运算矩阵的转置方阵的运算初等矩阵分块矩阵逆矩阵矩阵的秩广义逆矩阵矩阵的运算矩阵的转置转置:矩阵AAA的行列互换得到的矩阵称为 AAA 的转置(transpose),记作 ATA^TAT。性质:矩阵转置运算满足下列性质:(A+B)T=AT+BT(A+B)^T=A^T+B^T(A+B)T=AT+BT(AT)T=A(A^T)^T=A(AT)T=A(kA)T=kAT(kA)^T=kA^T(kA)T=kAT(AB)T=BTAT(AB)^T=B^TA^T(AB)T=BTAT(AT)−1

2023-09-13 22:11:08 1106 1

原创 线性代数的本质(四)——行列式

文章目录行列式二阶行列式nnn 阶行列式行列式的性质克拉默法则行列式的几何理解行列式二阶行列式行列式引自对线性方程组的求解。考虑两个方程的二元线性方程组{a11x1+a12x2=b1a21x1+a22x2=b2\begin{cases}a_{11}x_1+a_{12}x_2=b_1 \\a_{21}x_1+a_{22}x_2=b_2\end{cases}{a11​x1​+a12​x2​=b1​a21​x1​+a22​x2​=b2​​可使用消元法,得(a11a22−a12a21)x1=b

2023-09-13 00:07:12 1189

原创 线性代数的本质(三)——线性方程组

文章目录线性方程组高斯消元法初等行变换线性方程组的解向量方程齐次线性方程组的解非齐次线性方程组的解线性方程组高斯消元法客观世界最简单的数量关系是均匀变化的关系。在均匀变化问题中,列出的方程组是一次方程组,我们称之为线性方程组(Linear system of equations)。nnn元线性方程组的一般形式为{a11x1+a12x2+⋯+a1nxn=b1a21x1+a22x2+⋯+a2nxn=b2⋯⋯am1x1+am2x2+⋯+amnxn=bm\begin{cases} a_{11}x_1+a

2023-09-12 23:59:22 713

原创 线性代数的本质(二)——线性变换与矩阵

文章目录线性变换与矩阵线性变换与二阶方阵常见的线性变换复合变换与矩阵乘法矩阵的定义列空间与基矩阵的秩逆变换与逆矩阵线性变换与矩阵线性变换与二阶方阵本节从二维平面出发学习线性代数。通常选用平面坐标系 OxyOxyOxy ,基向量为 i, j\mathbf i,\ \mathbf ji, j,平面内的任意向量都可以写成基向量的线性组合v=xi+yj\mathbf v=x\mathbf i+y\mathbf jv=xi+yj这样,平面内的点和有序实数对 (x,y)(x,y)(x,

2023-09-11 00:40:35 587

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除