数学 概率 统计 最优化
文章平均质量分 79
yichudu
code anything
展开
-
信息流中的混排与流控
待完成.原创 2024-05-15 11:38:12 · 374 阅读 · 0 评论 -
pytorch autograd 自动微分与梯度更新
pytorch 内置了常见 tensor 操作的求导解析解. 从 loss 到 parameter 是若干个 op 叠加起来的复合函数, 所以用链式法则逐个计算.tensor.grad_fn 记录了一个 tensor 是由何种运算产出的, 以及相应的求导解析解.原创 2022-09-20 17:55:22 · 1243 阅读 · 0 评论 -
统计图表之桑基图 sankey diagram
一种展现能量流动的图表. 典型场景有:网上搜, 大多是付费软件的引流, 博主良心整理出无套路的 即用即走 在线工具.参考[1]的界面参考[2]的界面原创 2022-06-23 11:13:07 · 520 阅读 · 0 评论 -
ab实验与假设检验
ab实验与假设检验原创 2022-03-10 14:35:59 · 1427 阅读 · 0 评论 -
shap 中 PartitionExplainer 原理解读与官方demo的调试笔记
(masks=[False,…()内部在构造 model_pipeline 的 masked_inputs 时, 会将 前导的[CLS], 最后的[SEP]抹去, 所以虽然 mask[i] 和 mask[j] 的结果必然一致.图 观察到的现象是, 在一个batch_mask内 ,对于同样的 有效mask部分(选中高亮), 会重复四次. 所以缓存的话, 加速比是 4:1, 即提速3倍.(masks=[True…batch_masks 所盛放的这些masks是有特点的, 会存在若干对 (i,j) , 满足。原创 2021-10-18 18:37:25 · 2329 阅读 · 3 评论 -
PID 控制策略及计算广告中的应用
PID, Proportion Integration Differentiation, 比例-积分-微分 控制系统.当得到系统的输出后,将输出经过比例,积分,微分3种运算方式,叠加到输入中,从而控制系统的行为.u(t)=P∗e(t)+I∗∫0te(t)dt+D∗d e(t)dt(1)u(t)=P*e(t)+I*\int_0^t e(t)\mathrm dt+D*\frac{\mathrm d\ e(t)}{\mathrm dt} \tag 1u(t)=P∗e(t)+I∗∫0te(t)dt+原创 2021-07-22 20:07:17 · 2115 阅读 · 7 评论 -
拉格朗日乘数法
拉格朗日乘数法也叫拉格朗日乘子法, 用于求解带约束的最优化问题.该方法将一个有n个变量与k个约束条件的最优化问题, 转换为一个有(n + k)个变量的方程组的极值问题,其变量不受任何约束。这种方法引入了一种新的标量未知数,即拉格朗日乘数. 约束方程的梯度(gradient)的线性组合里每个向量的系数来求解。方法简述将约束条件与引入的拉格朗日乘数相乘, 再与原问题想减得到拉格朗日方程L().依次令各个变量的偏导为0, 得到方程组, 解出若干组解.代入验证, 确定原问题的解.一般形式例题实操原创 2021-07-20 17:57:36 · 8244 阅读 · 0 评论 -
数学基础(多项式, 方程求解)
多项式由数或字母的积组成的代数式叫做单项式,单独的一个数或一个字母也叫做单项式。单项式中的数字因数叫做这个单项式的系数(Coefficient),一个单项式中,所有字母的指数的和叫做这个单项式的次数(Degree of a monomial)。单项式是几次,就叫做几次单项式。在数学中,由若干个单项式相加组成的代数式叫做多项式.整式为单项式和多项式的统称,是有理式的一部分.因式分解, 是指...原创 2020-01-05 10:40:09 · 1062 阅读 · 0 评论 -
Monte Carlo , 蒙特卡洛算法
简介1.Monte Carlo method蒙特卡洛方法, 一种用于物理仿真与计算统计的算法, 它基于随机采样.1.1例子可以用于计算任意积分的值. ∫10f(x)dx\int_0^1 f(x) dx 当f(x)过于复杂, 无法用公式得出解析解时, 就可以通过随机采样来逼近它的解. 以 f(x)=x2f(x)=x^2 举例. 图 1-1 定积分 ∫10x2dx\int_0^1 x^2 dx原创 2017-09-27 15:45:37 · 2713 阅读 · 0 评论 -
概率论与数理统计
1.基本概念随机变量 记为XX. 分布函数 记为F(x)=P{X≤x}F(x)=P\{X\le x\}. 概率密度 若F(x)=∫x−∞f(t)dtF(x)=\int _{-\infty}^xf(t)dt,则f(x)f(x)称为随机变量X的概率密度.2.常用分布二项分布 几何分布 泊松分布原创 2016-12-02 21:56:16 · 1620 阅读 · 0 评论 -
向量
既有大小又有方向的量。二维、三维空间中有相应的几何意义,可以继续往高维推广。向量加法对应维度相加。向量乘法内积两向量内积为对应分量乘积的和。向量a⃗与b⃗\vec a与\vec b对应两个行矩阵A与B,那么 a⃗⋅b⃗=AT⋅B\vec a\cdot \vec b=A^T\cdot B。 抛开矩阵,那么a⃗⋅b⃗=∑mi=1(xi⋅yi)\vec a\cdot \vec b=\sum原创 2015-08-08 13:26:02 · 1043 阅读 · 0 评论 -
最优化算法 总述
Newton method牛顿法.Quasi-Newton拟牛顿法.BFGSBFGS, Broyden–Fletcher–Goldfarb–Shanno algorithm.L-BFGSL-BFGS,Limited-Memory BFGSOWL-QNOWL-QN,Orthant-Wise Limited-Memory Quasi-Newton.原创 2017-06-26 09:30:25 · 2112 阅读 · 0 评论 -
极限, 微分,导数与梯度
1.求导法则(u±v)′=u′±v′(u\pm v)'=u'\pm v' (uv)′=u′v+v′u(uv)'=u'v+v'u (uv)′=u′v−v′uv2( \frac u v)'=\frac {u'v-v'u} {v^2}2.常用公式(xa)′=axa−1(x^a)'=ax^{a-1} (ax)′=axlna(a^x)'=a^xlna (sinx)′=cosx(\sin x)'=\c原创 2016-11-23 11:07:13 · 784 阅读 · 0 评论 -
线性代数中的矩阵知识
方程组的各项的系数加上等号右边的值,就组成了一个增广矩阵。只有一行的矩阵叫做行矩阵,也称行向量;只有一列的矩阵叫列矩阵,也称列向量。如果矩阵A经过有限次初等变换得到了矩阵B, 就说A与B等价, 记作。:把同序数的行换成同序数的列,得到的新矩阵称为原矩阵的转置。, 总可以通过初等行变换,把它变为行阶梯矩阵和行最简矩阵.设A是一个m×s的矩阵,B是一个s×n的矩阵,那么。若方阵A对应的行列式等于0, 则称A为奇异矩阵., 则称A是可逆的, 称B为A的逆矩阵, 即。上面的数字r就是矩阵的秩, 并记作R(A).原创 2016-12-30 18:54:04 · 3212 阅读 · 4 评论 -
最优化 最小二乘法
1.概述最优化问题中, 若目标函数是若干个函数的平方和, 一般形式为 F(x)=∑i=1mf2i(x)F(x)=\sum_{i=1}^mf_i^2(x) 其中x是n维向量, 则称为最小二乘问题.2. 线性最小二乘问题若函数f(x)是线性的, 则称为线性最小二乘问题. fi(x)=pTix−bif_i(x)=p_i^Tx-b_i 令 A=⎛⎝⎜⎜pT1⋮pTm⎞⎠⎟⎟,b=⎛⎝⎜⎜b1⋮bm原创 2017-08-09 20:23:24 · 5171 阅读 · 0 评论 -
高维空间中, cosine similarity 的 k-近邻 搜索
帮我想个问题, 高维(dimension=200+)空间中, 点在某个集合A(|A|>40W)中的 K-近邻 cosine similarity 搜索, 有什么好的 hash 或 space split 方法么? 这是目前手头的一个实际问题, 用于 word2vec 的 k-邻近搜索, 我开始想到的是 K-D树, 可以又一想, 它处理Euclidean Distance 很直观, 似乎 不适于 c原创 2017-09-29 15:07:54 · 966 阅读 · 0 评论 -
特征工程
有这么一句话在业界广泛流传:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。所以特征工程的目的是最大限度地从原始数据中提取特征以供算法和模型使用。清洗特征交叉一般用在LR中. LR只有线性的表达能力, 所以做特征交叉可以额外获得一些非线性表达. 如在个性化推荐中, 将用户的年龄离散化成10个档, 用户的性别又是2个档, 彼此交叉后就有了额外的20个特征....原创 2017-07-08 14:53:24 · 740 阅读 · 0 评论 -
集合
集合由若干个元素组成,有三个特点。 1.确定性。集合中的元素必须是确定的; 2.互异性。集合中的元素互不相同; 3.无序性。集合中的元素没有先后之分。符号表示我们通常用大写字母如A,B,S,T,…表示集合,而用小写字母如a,b,x,y,…表示集合的元素。元素与集合若x是集合S的元素,则称x属于S,记为x∈Sx \in S。若y不是集合S的元素,则称y不属于S,记为y∉Sy\notin S。一般原创 2015-03-15 15:10:02 · 869 阅读 · 0 评论 -
使用latex写算法伪代码
伪代码具有通用(编程语言无关), 简洁(数组越界,判空什么的都可省去)的特点, 是用来描述算法过程的好工具.基于latex使用algorithm2e 这个包可以清晰地得到pdf格式的伪代码.参考pdf官方文档,algorithm2e...原创 2019-02-11 14:08:28 · 28735 阅读 · 5 评论 -
Latex in KeTex 模板
参考supported functions-katex例子通用E=mc2E=mc^2E=mc2分段函数x={aif bcif dx = \begin{cases} a &\text{if } b \\ c &\text{if } d\end{cases}x={acif bif d方程展开a=1+1+...原创 2019-01-22 14:59:48 · 530 阅读 · 0 评论 -
样本间的不同相似性度量
简介1.hamming distance在信息论里面, 汉明距离用来刻画两个字符串之间的相似程度. Q:如何计算? 从前往后遍历两个字符串, 若对应位置字符不同, distance+1, 遍历完毕后得到汉明距离.1.1例子 图1 The Hamming distance between various A and B从图1 中可以看出, 汉明距离既可以用来比较字符...原创 2017-09-27 10:28:05 · 3081 阅读 · 0 评论 -
机器学中的梯度下降与最优化求解
迭代下降算法是解非线性规划时常用的算法. 所谓迭代, 就是从某点 xkx_k出发, 按照某种规则A求出后继点xk+1x_{k+1}, 用 k+1 代替 k, 重复以上过程. 最终得到收敛于原问题的解.映射A 是定义在空间X上的点到集合的映射.解集合 受限于各种条件, 有时很难求得原问题的全局最优解. 当迭代点x∈解集合 x \in 解集合时就停止迭代.下降函数 每当谈到下降算法, 总是原创 2017-03-13 14:47:31 · 2937 阅读 · 0 评论 -
机器学习中的常用激活函数
1. sigmoidsigmoid, 并不是某一个具体的函数, 而是指代一类S型函数.tanh 双曲正切函数. tanhx=sinhxcoshx=ex−e−xex+e−x\tanh x=\frac {\sinh x}{\cosh x}=\frac{e^x-e^{-x}}{e^x+e^{-x}} 图1-1 tanh 图像, 值为[-1,+1] (tanhx)′=1−tanh2x(\ta原创 2017-08-06 15:50:39 · 6535 阅读 · 0 评论 -
余弦相似度与正规化的欧氏距离的某种等价性
给一个集合, V={x|x∈Rn}V=\{x | x \in \mathbb R^n\}, 和一个点 u∈Rnu \in \mathbb R^n, 依次计算uu与VV中各个点的距离, 然后按照从近到远排序, 就可以得到一个序列A=<x1,x2,...>A=<x_1,x_2,...>. 距离函数可以取 cosine similarity 值域[−1,1][-1,1],越大表示越相近.Eucli原创 2017-10-12 13:44:44 · 2700 阅读 · 2 评论 -
最优化 牛顿法及其变种
牛顿法设f(x)是二次可微实函数, 那么它的二阶泰勒多项式为 ϕ(x)=f(x0)+f′(x0)(x−x0)+12f′′(x0)(x−x0)2ϕ(x)=f(x0)+f′(x0)(x−x0)+12f″(x0)(x−x0)2\phi(x)=f(x_0)+ f'(x_0)(x-x_0)+\frac 1 2 f''(x_0)(x-x_0)^2 那么把x换成向量, 则有 ϕ(x)=f(x0)+∇...原创 2017-08-02 09:18:56 · 1398 阅读 · 0 评论 -
泰勒公式
1.定义多项式是一种只包含加法与乘法的简单函数, 最适于计算机计算来近似复杂的函数. f(x)≈f(x0)+f′(x0)(x−x0)f(x)\approx f(x_0)+f'(x_0)(x-x_0) 就是一个例子. 为了能够任意逼近及给出误差, 引入了泰勒多项式: Pn(x)=f(x0)+f′(x0)(x−x0)+f′′(x0)2!(x−x0)2+...+fn(x0)n!(x−x0)n(1)P原创 2017-08-01 14:55:24 · 3769 阅读 · 0 评论 -
希腊字母表
见表1. 来自互动百科表1 希腊字母表原创 2015-12-22 09:18:31 · 796 阅读 · 0 评论 -
matlab IO
工作区数据.mat文件是matlab特有的二进制文件,用来保存工作区内容到硬盘,或从硬盘恢复到工作区。save fileName //将工作区全部变量保存到fileName文件中,不需要用户输入后缀名。load fileName //将文件中的变量恢复到工作区。whos -file fileName //查看文件中保存的变量的概要信息。原创 2015-03-29 15:39:39 · 1390 阅读 · 0 评论 -
matlab 矩阵操作
函数名称 函数功能 ones(n) 构建一个n*n的,元素全是1的矩阵 ones(m,n,…,p) 构建一个m*n*…*p的,元素全是1的矩阵 ones(size(A)) 构建一个和矩阵A同样大小的1矩阵 zeros(XXX) 同ones(XXX)的用法,矩阵元素全是0 eye(XXX) 同ones(XXX)的用法,矩阵为单位矩阵 rand(XXX)原创 2015-03-02 16:31:43 · 870 阅读 · 0 评论 -
matlab 编程
M文件m文件即脚本,为了一次执行多条保存过的命令。%为注释。原创 2015-03-29 14:43:38 · 1062 阅读 · 0 评论 -
加密解密
加密技术通常分为两大类:“对称式”和“非对称式”。 一个加密系统S可以用数学符号描述如下:S={P, C, K, E, D}其中P——明文空间,表示全体可能出现的明文集合,C——密文空间,表示全体可能出现的密文集合,K——密钥空间,密钥是加密算法中的可变参数,E——加密算法,由一些公式、法则或程序构成,D——解密算法,它是E的逆。原创 2014-08-29 22:37:16 · 1274 阅读 · 0 评论 -
P NP 问题
单项式,monomial。多项式,polynomial。具体概念见《数学基础》,http://blog.csdn.net/chuchus/article/details/39136943 。多项式时间,Polynomial time。在 计算复杂度理论 中,指的是一个问题的计算时间m(n)不大于 问题规模n的多项式倍数。P问题,Polynomial time problem,多项式时间问题原创 2014-09-08 16:05:47 · 1329 阅读 · 0 评论 -
MarkDown编辑器推荐
1.工具作业部落: www.zybuluo.com非常给力,免费易用,还有客户端版本!2.语法参考2.1 数学公式http://meta.math.stackexchange.com/questions/5020/mathjax-basic-tutorial-and-quick-reference原创 2015-12-22 10:57:21 · 662 阅读 · 0 评论 -
k-折交叉检验 (附代码)
1.概念k-折交叉检验,k-fold cross test.一种检验机器学习效果的方法。k取值为10时就是10折交叉检验。将数据集均分成10份,做10次检验,取平均误差为最终误差。第i次检验时将第i份数据作为测试集,其余(10-1=9)份数据作为训练集。2.代码顺着逻辑直接写出来的代码:package org.lenskit.eval.crossfold;i原创 2016-01-12 15:10:51 · 2982 阅读 · 0 评论 -
Octave 安装
matlab是收费软件,体积大。octave免费,体积小,在做矩阵运算、画图等方面是一个不错的替代。它与matlab的语法几乎一致!1.下载安装网址:http://www.gnu.org/software/octave/download.html图1-1 下载界面2.使用示例默认安装出阿里菜单就是中文。图2-1 octave使用界面原创 2016-11-07 16:52:36 · 1077 阅读 · 0 评论 -
极大似然估计
极大似然估计, Maximum Likelihood Estimation. 它是这样一种思想: 假设拿到的样本服从某种分布律, 求分布律中的参数, 使得观测样本序列发生的概率最大. 换种说法就是, 事情已经发生了, 求一个模型中的参数, 使得已发生的现象解释起来最为自然, 合理.1.公式2.例子一个罐子里面有黑白两种颜色的球, 我们有放回地随机拿出一个球, 做了三次实验, 结果原创 2017-07-19 11:09:46 · 542 阅读 · 0 评论 -
matlab 入门
matlab是面向工程师与科学家的一款数学计算软件,有数值计算、数据分析、数据可视化、算法开发等功能。Simulink,Matlab的仿真模块,它提供了一个交互式图形环境,可用于信号处理、图形处理、控制系统等。三大数学软件:Matlab MathematicaMaple。file菜单save workspace as //将当前工作区的数据存储到文件中。相当于java中的原创 2015-03-02 15:39:38 · 982 阅读 · 0 评论 -
线性规划中的对偶理论
线性规划普遍存在配对现象, 即对每一个线性规划问题, 都存在另一个与他有密切关系的线性规划问题. 前者称为原问题, 后者称为对偶问题.对称形式的对偶线性规划中的对偶有多种形式, 现在讨论一下对称形式的对偶.原问题 mins.t. cx Ax≥b x≥0\begin{align}\min &\ \ \mathbf c\mathbf x \\s.t. &\ \ \mathbf A\mat原创 2017-04-17 19:29:50 · 7610 阅读 · 0 评论 -
空间解析几何
解析几何是用代数方法研究几何对象之间的关系和性质的一门几何学分支。通俗讲就是通过建立坐标系来用方程描述几何图形。 在解析几何创立以前,几何与代数是彼此独立的两个分支。而它的出现使形与数统一起来,这是数学发展史上的一次重大突破。 在平面解析几何中,除了研究直线的有关性质外,主要是研究圆锥曲线(圆、椭圆、抛物线、双曲线)的有关性质。 在空间解析几何中,除了研究平面、直线有关性质外,主要研究柱面、锥原创 2015-02-12 17:35:11 · 6215 阅读 · 0 评论 -
凸规划
1.凸集设S为n维欧式空间Rn\mathbb R^n中的一个集合, 若对S中任意两点, 连接它们的线段中任一点仍属于S, 那么就说S为一个凸集. 对于S中的任意两点x1,x2\mathbf x_1 , \mathbf x_2, 对于任意的λ∈[0,1]\lambda \in [0,1], 都有 λx1+(1−λ)x2∈S\lambda \mathbf x_1+(1-\lambda ) \mathb原创 2017-03-08 10:20:13 · 9517 阅读 · 2 评论