自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(132)
  • 收藏
  • 关注

原创 线性代数的本质(一)——向量空间

高中数学A版选修4-2 矩阵与变换《线性代数及其应用》(第五版)《高等代数简明教程》- 蓝以中。

2023-09-11 00:19:26 659 1

原创 偏微分方程(Partial Differential Equation I)

高等数学偏微分方程波动方程

2020-04-07 16:50:54 6356

原创 常微分方程(Ordinary Differential Equation I)

高等数学,微分方程,常微分方程,偏微分方程

2019-05-02 12:36:35 14901 2

原创 KaTeX 数学符号列表

数学符号希腊字母LaTexKaTex===is equal to=≠\ne̸​=is not equal to\ne≈\approx≈is approximately equal to\approx+++plus+−-−minus-±;∓\pm; \mp±;∓plus-minus; minus-plus\pm; \mp...

2019-04-22 18:37:20 13930 3

原创 大数据手册(Hive)--HiveQL

目录HIVE命令HIVE数据类型HIVE内置运算符HiveQL常用语句创建/删除数据库创建/删除表修改表结构导入数据插入数据查询语句其他常用命令HIVE常用内置函数Hive视图和索引hive性能调优Hive是一个数据仓库基础工具在Hadoop中用来处理结构化数据。它架构在Hadoop之上,总归为大数据,并使得查询和分析方便。HIVE命...

2018-07-03 17:57:36 13325 1

原创 Python手册(Python Basics)--Python基础

Python 是一种易于学习又功能强大的编程语言。它提供了高效的高层次的数据结构,还有简单有效的面向对象编程。Python 优雅的语法和动态类型,以及解释型语言的本质,使它成为在很多领域多数平台上写脚本和快速开发应用的理想语言。

2018-05-09 00:10:30 10173 1

原创 大数据手册 (Spark)--PySpark机器学习Demo

StringIndexer 索引的范围从 0 开始,索引构建的顺序为字符标签的频率,优先编码频率较大的标签,所以出现频率最高的标签为 0。这是一个二分类问题,先定义一个提取正样本得分的函数。

2024-05-17 21:52:52 409

原创 大数据手册(Spark)--Spark 简介

PySpark是Apache Spark的Python API。它使您能够使用Python在分布式环境中执行实时、大规模的数据处理。PySpark支持Spark的所有功能,如Spark SQL、DataFrames、结构化流、机器学习(MLlib)和Spark Core。Spark SQL是Spark处理结构化数据的模块,它提供了结构化抽象 DataFrame。是分布式 Pandas API。用于增量计算和流处理用于分布式环境下的机器学习Spark Core是该平台的基础。

2024-05-09 21:56:28 500 1

原创 分布式机器学习

LightGBM的参数比SynapseML公开的要多得多,若要添加额外的参数,请使用passThroughArgs字符串参数配置。您可以混合passThroughArgs和显式args,SynapseML合并它们以创建一个要发送到LightGBM的参数字符串。如果您在两个地方都设置参数,则以passThroughArgs为优先。

2024-04-26 22:14:16 215 3

原创 增量学习 Demo

4f.4f以下全部更新。

2024-04-23 15:59:37 431

原创 机器学习基本流程

PSI(Population Stability Index)指标反映了实际分布(actual)与预期分布(expected)的差异。在建模中,我们常用来筛选特征变量、评估模型稳定性。其中,在建模时通常以训练样本(In the Sample, INS)作为预期分布,而验证样本在各分数段的分布通常作为实际分布。超参数调优算法主要有网格搜索(Grid Search),随机搜索(Randomized Search)和贝叶斯优化(Bayesian Optimization),本文采用贝叶斯优化。

2024-04-20 23:58:30 1427 2

原创 focal_loss

【代码】focal_loss。

2024-04-18 20:44:30 74

原创 特征工程(V)--时间序列特征

有这么一句话在业界广泛流传:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。由此可见,特征工程在机器学习中占有相当重要的地位。在实际应用当中,可以说特征工程是机器学习成功的关键。特征工程是数据分析中最耗时间和精力的一部分工作,它不像算法和模型那样是确定的步骤,更多是工程上的经验和权衡。因此没有统一的方法。这里只是对一些常用的方法做一个总结。

2024-04-15 00:32:48 915

原创 特征工程(IV)--特征选择

现在我们已经有大量的特征可使用,有的特征携带的信息丰富,有的特征携带的信息有重叠,有的特征则属于无关特征,尽管在拟合一个模型之前很难说哪些特征是重要的,但如果所有特征不经筛选地全部作为训练特征,经常会出现维度灾难问题,甚至会降低模型的泛化性能(因为较无益的特征会淹没那些更重要的特征)。因此,我们需要进行特征筛选,排除无效/冗余的特征,把有用的特征挑选出来作为模型的训练数据。过滤法(Filter)比较简单,它按照特征的发散性或者相关性指标对各个特征进行评分,设定评分阈值或者待选择阈值的个数,选择合适特征。

2024-04-15 00:31:03 715

原创 特征工程(III)--特征构造

有这么一句话在业界广泛流传:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。由此可见,特征工程在机器学习中占有相当重要的地位。在实际应用当中,可以说特征工程是机器学习成功的关键。特征工程是数据分析中最耗时间和精力的一部分工作,它不像算法和模型那样是确定的步骤,更多是工程上的经验和权衡。因此没有统一的方法。这里只是对一些常用的方法做一个总结。

2024-04-10 23:58:43 711

原创 特征工程(I)--探索性数据分析

有这么一句话在业界广泛流传:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。由此可见,特征工程在机器学习中占有相当重要的地位。在实际应用当中,可以说特征工程是机器学习成功的关键。特征工程是数据分析中最耗时间和精力的一部分工作,它不像算法和模型那样是确定的步骤,更多是工程上的经验和权衡。因此没有统一的方法。这里只是对一些常用的方法做一个总结。

2024-04-06 21:43:56 1262 3

原创 特征工程(II)--数据预处理

导入必要的包import numpy as npimport pandas as pdimport refrom sklearn.base import BaseEstimator, TransformerMixinfrom sklearn.utils.validation import check_X_y, check_is_fittedfrom sklearn.preprocessing import FunctionTransformerfrom sklearn.compose impo

2024-04-06 21:00:46 276

原创 Python手册(Machine Learning)--XGBoost

xgboost 在 xgb.train中通过参数obj和custom_metric来自定损失函数和评估函数。自定义损失函数接受predt和dtrain作为输入,返回损失函数的一阶(grad)和二阶(hess)导数。'''自定义损失函数后,模型的输出不在是 [0,1] 概率输出,而是 sigmoid 函数之前的输入值。因此,需要写出对应的评估函数。评估函数也接受predt和dtrain作为输入,返回本身的名称和浮点值作为结果。

2024-03-28 22:44:38 1041

原创 机器学习(II)--样本不平衡

现实中,样本(类别)样本不平衡(class-imbalance)是一种常见的现象,如:金融欺诈交易检测,欺诈交易的订单样本通常是占总交易数量的极少部分,而且对于有些任务而言少数样本更为重要。一般地,样本类别比例(Imbalance Ratio)(多数类vs少数类)严重不平衡时,分类算法将开始做出有利于多数类的预测。

2024-03-01 08:59:47 776

原创 Python手册(Machine Learning)--LightGBM

LightGBM(Light Gradient Boosting Machine)是一种高效的 Gradient Boosting 算法, 主要用于解决GBDT在海量数据中遇到的问题,以便更好更快的用于工业实践中。而在实际建模环节,LGBM支持Python、Java、C++等多种编程语言进行调用,并同时提供了Sklearn API和原生API两套调用方法。

2024-02-27 16:13:28 941

原创 超参数优化

我们使用dict()说明用于分类参数,返回options 中的元素返回 (probability, option) 元素对返回区间 [low, upper) 内的随机整数均匀返回 low, high 之间的浮点数均匀返回 low, high 之间的浮点数,适用于离散值均匀返回 low, high 之间均的整数,适用于离散值对数均匀返回 elow,ehigh之间浮点数对数均匀返回 elow, ehigh之间浮点数,适用于离散值正态分布返回实数正态分布返回实数,适用于离散值。

2024-02-22 09:36:29 1140

原创 线性代数的本质(十一)——复数矩阵

极大线性无关组包含的向量个数为向量组的秩。(3) 一个向量组的任意两个极大线性无关组中包含的向量个数相同,称为向量组的。如果其中的每个向量都能被另一个向量组线性表示,则两个向量组。(1) 一个向量组的极大线性无关组不一定是惟一的;(2) 一个向量组与它的极大线性无关组是等价的;向量组中任意一个向量都不能由其余向量线性表示。全由零向量组成的向量组的秩为零;(5) 两个等价的向量组生成的向量空间相同。向量组中存在向量能被其余向量线性表示。(4) 两个线性等价的向量组的秩相等;个向量组成的向量组 都线性相关。

2023-09-13 22:50:33 1797

原创 线性代数的本质(十)——矩阵分解

文章目录矩阵分解LU分解QR分解特征值分解奇异值分解奇异值分解矩阵的基本子空间奇异值分解的性质矩阵的外积展开式矩阵分解矩阵的因式分解是把矩阵表示为多个矩阵的乘积,这种结构更便于理解和计算。LU分解设 AAA 是 m×nm\times nm×n 矩阵,若 AAA 可以写成乘积A=LUA=LUA=LU其中,LLL 为 mmm 阶下三角方阵,主对角线元素全是1。UUU 为 AAA 得到一个行阶梯形矩阵。这样一个分解称为LU分解。 LLL 称为单位下三角方阵。我们先来看看,LU分解的一个应用。当

2023-09-13 22:47:42 666

原创 线性代数的本质(九)——二次型与合同

当然,也可通过两个向量的内积在不同的坐标系中的计算公式获得两个度量矩阵间的关系。由过渡矩阵知道,同一个向量从 Jennifer 的坐标到 Grant 的坐标变换公式为。从上节可以看出二次型的标准型是不唯一的,但二次型的秩是唯一的,在化成标准型的过程中是不变的,即标准型中含有的非零平方项的个数是不变的。由解析几何的知识,我们了解到二次函数的一次项和常数项只是对函数图像进行平移,并不会改变图形的形状和大小。而二次函数的二次项控制函数图像的大小和形状。显然,合同矩阵即为二次型在不同基下的矩阵。

2023-09-13 22:40:00 977

原创 线性代数的本质(八)——内积空间

文章目录内积空间内积空间正交矩阵与正交变换正交投影施密特正交化实对称矩阵的对角化内积空间内积空间三维几何空间是线性空间的一个重要例子,如果分析一下三维几何空间,我们就会发现它还具有一般线性空间不具备的重要性质:三维几何空间中向量有长度和夹角,这称为三维几何空间的度量性质。现在,我们在一般线性空间中引入度量有关的概念。我们知道三维几何空间中向量的长度和夹角可由向量的内积来决定。内积就是一个函数,它把向量对u,v\mathbf u,\mathbf vu,v 映射成一个数。在向量空间 VVV 中,将内积运

2023-09-13 22:32:35 1420

原创 线性代数的本质(七)——特征值和特征向量

本章特征值和特征向量的概念只在方阵的范畴内探讨。

2023-09-13 22:21:32 442

原创 线性代数的本质(六)——线性空间

文章目录线性空间线性空间子空间坐标与同构线性变换与矩阵基变换与坐标变换线性空间线性空间Grant: 普适的代价是抽象。仔细分析就会发现,关于向量空间的一切概念及有关定理都不依赖于向量的具体表现形式(有序数组),也不依赖于向量加法、数乘的具体计算式,而只依赖于如下两点:向量的加法与数乘运算封闭;加法、数乘满足八条运算法则。这一事实告诉我们:可以把向量的有序数组这一具体表达形式及加法、数乘的具体计算式这些非本质的东西拋弃 ,只把最根本的八条运算法则保留下来。这时它们就不能从理论上给予证明,

2023-09-13 22:17:08 548

原创 线性代数的本质(五)——矩阵的运算

文章目录矩阵的运算矩阵的转置方阵的运算初等矩阵分块矩阵逆矩阵矩阵的秩广义逆矩阵矩阵的运算矩阵的转置转置:矩阵AAA的行列互换得到的矩阵称为 AAA 的转置(transpose),记作 ATA^TAT。性质:矩阵转置运算满足下列性质:(A+B)T=AT+BT(A+B)^T=A^T+B^T(A+B)T=AT+BT(AT)T=A(A^T)^T=A(AT)T=A(kA)T=kAT(kA)^T=kA^T(kA)T=kAT(AB)T=BTAT(AB)^T=B^TA^T(AB)T=BTAT(AT)−1

2023-09-13 22:11:08 815 1

原创 线性代数的本质(四)——行列式

文章目录行列式二阶行列式nnn 阶行列式行列式的性质克拉默法则行列式的几何理解行列式二阶行列式行列式引自对线性方程组的求解。考虑两个方程的二元线性方程组{a11x1+a12x2=b1a21x1+a22x2=b2\begin{cases}a_{11}x_1+a_{12}x_2=b_1 \\a_{21}x_1+a_{22}x_2=b_2\end{cases}{a11​x1​+a12​x2​=b1​a21​x1​+a22​x2​=b2​​可使用消元法,得(a11a22−a12a21)x1=b

2023-09-13 00:07:12 1039

原创 线性代数的本质(三)——线性方程组

文章目录线性方程组高斯消元法初等行变换线性方程组的解向量方程齐次线性方程组的解非齐次线性方程组的解线性方程组高斯消元法客观世界最简单的数量关系是均匀变化的关系。在均匀变化问题中,列出的方程组是一次方程组,我们称之为线性方程组(Linear system of equations)。nnn元线性方程组的一般形式为{a11x1+a12x2+⋯+a1nxn=b1a21x1+a22x2+⋯+a2nxn=b2⋯⋯am1x1+am2x2+⋯+amnxn=bm\begin{cases} a_{11}x_1+a

2023-09-12 23:59:22 482

原创 线性代数的本质(二)——线性变换与矩阵

文章目录线性变换与矩阵线性变换与二阶方阵常见的线性变换复合变换与矩阵乘法矩阵的定义列空间与基矩阵的秩逆变换与逆矩阵线性变换与矩阵线性变换与二阶方阵本节从二维平面出发学习线性代数。通常选用平面坐标系 OxyOxyOxy ,基向量为 i, j\mathbf i,\ \mathbf ji, j,平面内的任意向量都可以写成基向量的线性组合v=xi+yj\mathbf v=x\mathbf i+y\mathbf jv=xi+yj这样,平面内的点和有序实数对 (x,y)(x,y)(x,

2023-09-11 00:40:35 424

原创 Hadoop生态概述及常见报错

Hadoop​ Hadoop是一个开源框架来存储和处理大型数据在分布式环境中。它包含两个模块,一个是MapReduce,另外一个是Hadoop分布式文件系统(HDFS)。​ MapReduce:它是一种并行编程模型在大型集群普通硬件可用于处理大型结构化,半结构化和非结构化数据。​ HDFS:Hadoop分布式文件系统是Hadoop的框架的一部分,用于存储和处理数据集。它提供了一个容错文件系统在普通硬件上运行。​ Hadoop生态系统包含了用于协助Hadoop的不同的子项目(工具)模块,如Sqoo

2021-05-04 14:28:12 230

转载 VScode 快捷键

文章目录基础编辑 Basic editing导航 Navigation搜索和替换 Search and replace多光标和选择 Multi-cursor and selection丰富的语言编辑 Rich languages editing编辑器管理 Editor management文件管理 File management显示 Display调试 Debug集成终端 Integrated terminal快捷键转自博客园https://www.cnblogs.com/jpfss/p/109566

2021-04-24 16:21:04 171

原创 Windows 常用快捷键

常用快捷键Ctrl + C:复制选定项Ctrl + X:剪切选定项Ctrl + V:粘贴选定项Ctrl + Z:撤消操作Ctrl + Y:重做操作Ctrl + S:保存Ctrl + A:选择文档或窗口中的所有项目Alt + Tab:在打开的应用之间切换Win + L:锁定电脑Win + D:显示和隐藏桌面Win+Shift+S 一键截图Ctrl 组合Ctrl + D:删除选定项Ctrl + R:刷新活动窗口Ctrl + F:搜索Ctrl + H:替换Ctrl + N

2021-04-24 14:38:11 272

原创 偏微分方程(Partial Differential Equation IV)

数学物理方法变分法初步泛函的概念泛函的极值泛函的条件极值微分方程的变分法Rayleigh-Ritz 方法非线性数学物理问题偏微分方程(Partial Differential Equation I)偏微分方程(Partial Differential Equation II)偏微分方程(Partial Differential Equation III)偏微分方程(Partial Differential Equation IV)参考文献:《数学物理方程》| 季孝达《数学物理方法

2020-07-10 16:52:58 6978

原创 偏微分方程(Partial Differential Equation III)

数学物理方法格林函数法积分变换法非线性数学物理问题偏微分方程(Partial Differential Equation I)偏微分方程(Partial Differential Equation II)格林函数法积分变换法非线性数学物理问题参考文献:《数学物理方法》| 吴崇试《数学物理方法》| 梁昆淼《数学物理方程》| 陈才生MOOC苏州科技大学《数学物理方法》...

2020-06-21 18:55:54 2255

原创 偏微分方程(Partial Differential Equation II)

数学物理方法球函数勒让德方程的解勒让德函数连带勒让德函数球谐函数柱函数贝塞尔方程的解贝塞尔函数球贝塞尔方程偏微分方程(Partial Differential Equation I)偏微分方程(Partial Differential Equation II)偏微分方程(Partial Differential Equation III)球函数勒让德方程的解求解勒让德方程(Legendre equation)(1−x2)y′′−2xy′+l(l+1)y=0(1.1)(1-x^2)y

2020-05-15 17:54:41 2305

原创 常微分方程(Ordinary Differential Equation III)

常微分方程一阶线性微分方程组基本概念解的存在和唯一性定理齐次线性微分方程组非齐次线性微分方程组常系数线性微分方程组常微分方程(Ordinary Differential Equation I)常微分方程(Ordinary Differential Equation II)常微分方程(Ordinary Differential Equation III)一阶线性微分方程组基本概念本章...

2020-04-23 14:53:26 1034

原创 常微分方程(Ordinary Differential Equation II)

常微分方程高阶微分方程高阶线性齐次方程高阶线性非齐次方程常系数线性齐次微分方程常系数线性非齐次微分方程高阶微分方程的降阶高阶微分方程幂级数求法常微分方程(Ordinary Differential Equation I)常微分方程(Ordinary Differential Equation II)常微分方程(Ordinary Differential Equation III)高阶微...

2020-04-23 14:52:22 1505

原创 大数据手册(Spark)--Spark流数据处理

文章目录Spark StreamingSpark安装配置Spark基本架构及运行流程Spark基础知识(PySpark版)Spark机器学习(PySpark版)Spark流数据处理(PySpark版)Spark StreamingHadoop的MapReduce及Spark SQL等只能进行离线计算,无法满足实时性要求较高的业务需求,例如实时推荐、实时网站性能分析等,流式计算可以...

2020-01-13 17:48:05 4999 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除