- 博客(39)
- 收藏
- 关注
原创 降维——PCA
文章目录一个中心两个基本点最大投影方差最小重构距离笔记手稿一个中心将一组可能线性相关的变量通过正交变换变成一组线性无关。(将原始数据重新构造)两个基本点最大投影方差中心化投影对数据进行中心化后,根据数据的最大投影方差。找到主成分最小重构距离原始K维,构造m个(m<k)不同向量,每个向量间都是正交的。对这些特征值进行排序,获取前n个对应的特征向量。笔记手稿...
2020-05-06 22:05:58 280
原创 Note:五大算法——回溯算法
文章目录Key point回溯算法框架全排列问题代码N皇后问题代码Key point解决一个回溯问题,实际上就是一个决策树的遍历过程。围绕3个问题去展开:路径:指已经做出的选择选择列表:当前面临的选择结束条件:到达决策树底层时,无法再做选择的条件经典题目全排列、N皇后问题回溯算法框架result = []def backtrack(路径, 选择列表): if 满足...
2020-03-30 22:44:51 252
原创 python——垃圾回收机制
python采用的是引用计数机制为主,标记-清除和分代收集两种机制为辅的策略。文章目录引用计数导致引用计数+1的情况导致引用计数-1的情况循环引用导致内存泄露分代回收垃圾回收gc模块gc模块的自动垃圾回收机制自动回收阈值标记清除reference引用计数Python语言默认采用的垃圾收集机制是『引用计数法 Reference Counting』,该算法最早George E. Collins...
2020-03-04 14:05:43 354
原创 优化算法note
发展:优化算法的主要步骤:SGD:下降梯度就是最简单的最大的缺点是下降速度慢,而且可能会在沟壑的两边持续震荡,停留在一个局部最优点。SGD with Momentum下坡的时候,如果发现是陡坡,那就利用惯性跑的快一些引入了一阶动:一阶动量是各个时刻梯度方向的指数移动平均值,约等于最近 1/(1 - β) 个时刻的梯度向量和的平均值。也就是说,t时刻的下降方向,不仅由当前点...
2020-03-02 10:31:17 387
原创 SQL中JOIN的用法
文章目录INNER JOIN @ JOINLEFT JOINRIGHT JOINFULL OUTER JOININNER JOIN @ JOIN内连接是最常见的一种连接,只连接匹配的行。inner join语法select column_name(s)from table 1INNER JOIN table 2ON table 1.column_name=table 2.colu...
2020-02-03 22:27:51 140
转载 序列模式挖掘算法
题目:下面有关序列模式挖掘算法的描述,错误的是? AprioriAll算法和GSP算法都属于Apriori类算法,都要产生大量的候选序列 FreeSpan算法和PrefixSpan算法不生成大量的候选序列以及不需要反...
2020-01-02 22:49:28 1029
原创 LDA——主题模型_note
文章目录前提:主要内容先验分布——共轭分布Beta分布——Dirichlet分布三层贝叶斯网络模型LDAGibbs采样和更新规则应用方向前提:利用朴素贝叶斯的分析可以胜任许多文本分类问题但是无法解决语料中***一词多义*** 和***多词一义***的问题那么可以加入一个“主题”的方式,一定程度可以解决一个词可能被映射到多个主题中:一词多义多个词可能被映射到某个主题的概率很高:多词一义...
2019-12-25 17:33:05 164
原创 Xgboost 得调参思路
文章目录xgboost的优点参数调试通用参数Booster 参数目标参数xgboost的优点1、正则化GBM(Gradient Boosting Machine)的实现没有像XGBoost这样的正则化步骤,因此很多时候过拟合处理比较麻烦,而XGBoost以“正则化提升(regularized boosting)”技术而闻名。2、并行处理XGBoost支持并行处理,相比GBM有了速度上的巨...
2019-12-22 21:20:24 209
原创 回溯法,分支限界法
求解目标不同,搜索方式也不同回溯法1)(求解目标)回溯法的求解目标是找出解空间中满足约束条件的一个解或所有解。2)(搜索方式:深度优先)回溯***搜索整个解空间,当不满条件时,丢弃,继续搜索下一个儿子结点,如果所有儿子结点都不满足,向上回溯到它的父节点。分支限界法1)(求解目标)分支限界法的目标一般是在满足约束条件的解中找出在某种意义下的最优解,也有找出满足约束条件的一个解。2)(搜索...
2019-12-19 10:34:27 524 1
原创 Git 学习笔记
文章目录创建及基础使用创建基础使用记录修改resetcheckout分支命令列表创建及基础使用创建在需要管理的文件夹中,运行git bash然后执行命令。git config --global user.email ” name@email.com”git config --global user.name “name”设置提交人的信息,接着git init就会生成一个隐藏文件...
2019-12-15 16:30:15 84
原创 某宝的爬虫测试
内容基于网上的代码,设计了一个搜索关键字去爬取商品信息的初级demo。cookies.txt文件需要在登陆的时候,去读取,具体如下:登陆的时候打开F12,选择好Network 勾选Preserve log登陆之后,会产生下面这个文档。保存cookie信息到cookies.txt就可以运行下面代码。import requestsfrom selenium import webdr...
2019-12-14 22:15:53 344
原创 Viterbi算法的笔记
关于Viterbi的理解,网上有很多小故事和例子来解释。下面只是自己对Viterbi的一些总结笔记。如果要计算S到E的最短距离,最开始的想法都是先遍历S到E的所有路径,然后找到最短的路径。而Viterbi算法就是从S到E寻找路径的过程中,逐步优化。具体是:S到a的三个点的距离不能武断地就指出哪条是最短的。每条路的选择都有可能是最终的最短路径。接着看a到b的距离。...
2019-12-13 21:19:22 101
转载 各类树的定义
1. 树(Tree)的基本概念1.1 树的定义A tree is a (possibly non-linear) data structure made up of nodes or vertices and edges without having any cycle. The tree with no nodes is called the null or empty tree. A tr...
2019-11-30 17:02:56 290
原创 统计学习方法——EM算法
EM算法也就是期望最大算法。由E—step 和 M—step组成,是一种迭代算法。用于解决隐变量的混合模型的参数估计。首先用例子来说明一下:现在一个班里有 50 个男生和 50 个女生,且男女生分开。我们假定男生的身高服从正态分布:,女生的身高则服从另一个正态分布:。这时候我们可以用极大似然法(MLE),分别通过这 50 个男生和 50 个女生的样本来估计这两个正态分布的参数。...
2019-11-23 23:55:50 268
原创 KL散度 与 ELBO
在学习EM算法的时候,涉及了这两个知识。在此先提前学习一下这两个知识点。KL散度KL散度就是相对熵,用于衡量两个概率分布之间的差异。对于两个概率分布p(x) 和 q(x),其相对熵的计算公式为:由于p(x) 和 q(x)在公式中的地位不是相等的,所有KL(p || q) 不等于 KL(q || p)。相对熵的特点是,只有当p(x) = q(x)时,其值为0,若两者略有差...
2019-11-23 23:23:05 1015
原创 判别式模型和生成式模型
判别方法:由数据直接学习决策函数 Y = f(X),或者由条件分布概率 P(Y|X)作为预测模型,即判别模型。(针对P(y|x)建模)生成方法:由数据学习联合概率密度分布函数 P(X,Y),然后求出条件概率分布P(Y|X)作为预测的模型,即生成模型。由生成模型可以得到判别模型,但由判别模型得不到生成模型。(针对P(x,y)建模)常见的判别模型有:K近邻、SVM、决策树、感知...
2019-11-18 22:35:20 147
转载 递归、分治、动态规划、贪心、回溯、分支限界几大相似算法比较
一、算法思想1.递归算法(recursion algorithm)大师 L. Peter Deutsch 说过:To Iterate is Human, to Recurse, Divine.中文译为:人理解迭代,神理解递归。直接或间接地调用自身的算法称为递归算法。 递归是算法设计与分析中常用的一种技术,描述简单且易于理解。2.分治法(divide and conquer method)...
2019-11-15 23:17:32 1158
原创 kenlm环境搭建
背景:所需环境是ubuntu anaconda NLTK,这些比较容易安装的,可以自行百度解决。一、下载kenLM的文件直接进入KenLM环境的搭建,首先进入kenlm的github网址点击打开链接,然后会进入到kenlm的界面,如下:3、解压下载好的文件或如下操作:使用命令:wget -O - http://kheafield.com/code/kenlm.ta...
2019-11-15 23:11:58 832
原创 线性分类器三种最优准则
Fisher 准则 :根据两类样本一般类内密集,类间分离的特点,寻找线性分类器最佳的法线向量方向,使两类样本在该方向上的投影满足类内尽可能密集,类间尽可能分开。这种度量通过类内离散矩阵 Sw 和类间离散矩阵 Sb 实现。更广泛的称呼是线性判别分析(LDA),将所有样本投影到一条远点出发的直线,使得同类样本距离尽可能小,不同类样本距离尽可能大,具体为最大化“广义瑞利商”。感知准则函数 :准则函数以...
2019-11-15 22:53:35 677
原创 极大似然估计、极大后验估计和贝叶斯估计
在很多的机器学习问题种,输入x是一个向量,输出p(x)为某一个时间的概率(比如,x属于某个类别的概率)。一观测的数据集D,其中x1,x2,x3……独立同分布。我们将输入x所满足的概率分布建模为p(D,θ),则对新输入的预测为p(x|D,θ),其中θ是一个向量,表示待去顶的所有模型参数。那么如果求解或者估计出θ的值呢?频率学派VS贝叶斯学派对于θ的本质不同认识,可以分为两...
2019-10-19 23:13:04 1204
转载 联合概率、边缘概率、条件概率之间的关系&贝叶斯公式
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。 ...
2019-10-13 17:01:15 1004
原创 常见的聚类算法
涵盖 K-means 、 Mean-Shift 、DBSCAN、基于高斯混合模型(GMM)的期望最大化(EM)聚类、凝聚层次聚类K-means 算法 K-means的假设是:将某一些数据分为不同的类别,在相同的类别中数据之间的距离应该都很近,也就是说离得越近的数据应该越相似,再进一步说明,数据之间的相似度与它们之间的欧式距离成反比。过程:K-mea...
2019-10-11 16:50:10 566
原创 学习中的多种概率分布
概率分布是随机变量所有可能结果及其相应概率的列表。概率分布的目的:反向推演出某一个事态(随机变量)发生的概率,为决策提供依据,掌控事态变化的关键。下图是多种概率分布的联系。其中共轭(conjugate)表示的是互为共轭的概率分布;Multi-Class 表示随机变量多于 2 个;N Times 表示我们还会考虑先验分布 P(X)。共轭的意思 ...
2019-10-09 13:57:29 379
原创 LR和SVM的联系与区别?
联系:1、LR和SVM都可以处理分类问题,且一般都用于处理线性二分类问题(在改进的情况下可以处理多分类问题)2、两个方法都可以增加不同的正则化项,如l1、l2等等。所以在很多实验中,两种算法的结果是很接近的。区别:1、LR是参数模型,SVM是非参数模型。2、从目标函数来看,区别在于逻辑回归采用的是logistical loss,SVM采用的是hinge loss.这...
2019-10-02 13:37:08 174
原创 统计学习方法——支持向量机
关于支持向量机的学习,大概是整本书比较重要的一节。这次除了看李航的统计学习书以外,还结合了B站上的一个手推支持向量机视频,视频除了详细推导支持向量机外,还补充了对偶问题、slater condition、KKT条件。视频地址:https://www.bilibili.com/video/av28186618/?p=1建议跟着视频一起推导。...
2019-09-29 22:08:08 139
原创 order by 和 group by 的区别
1、order by的意思是行的排序方式,默认的为升序。orderby后面必须列出排序的字段名,可以是多个字段名。2、groupby的意思是分组,必须有“聚合函数”来配合才能使用,使用时至少需要一个分组标志字段。聚合函数是sum()、count()、avg()3、在sql命令格式使用的先后顺序上,groupby先于orderby。在Sql中也可以说order by是...
2019-09-28 21:30:25 3115
转载 机器学习中常见的几种最优化方法
1. 梯度下降法(Gradient Descent)2. 牛顿法和拟牛顿法(Newton's method &Quasi-Newton Methods)3. 共轭梯度法(Conjugate Gradient)4. 启发式优化方法5. 解决约束优化问题——拉格朗日乘数法...
2019-09-28 14:52:40 360
原创 统计学习方法——逻辑斯蒂回归与最大熵模型
逻辑斯蒂回归(LR)是统计学习中的经典分类方法。最大熵是概率模型学习的一个准则,将其推广到分类问题得到最大熵模型。逻辑斯蒂回归模型与最大熵模型都属于对数线性模型。1、逻辑斯蒂回归模型线性回归与逻辑回归关系:在学习逻辑回归时,常常会联想到线性回归。线性回归一般预测解决连续值预测的问题,对已有的数据进行线性拟合,运用最小二乘法等,找到最佳拟合曲线,然后得到线性模型,来进行预测,是一个线性模...
2019-09-28 14:48:39 739
原创 分类问题评估度量标准
1、错误率 预判错误的概率2、精度 判断正确的概率3、二分类混淆矩阵预测的结果和真实的结果分成四类:查准率(准确率) P (precision) = TP+FP:预测为正的 样本查全率(召回率) R (recall)= TP+FN: 真正的全部正样本F1 值:F1 = ...
2019-09-28 12:00:40 386
转载 因子分解机 FM
目录背景FM 因子分解FM模型的核心作用可以概括为以下三个:与其他模型相比,它的优势如下:FFM(场感知分解机,Field-aware Factorization Machine)背景DeepFMFM/FFM与其它模型对比背景在人工方式的特征工程,通常有两个问题:1、特征爆炸2、大量重要的特征组合都隐藏在数据中,无法被专家识别和设计针对上述两个问题,广度模型和深度模型提供了不同的解决思路...
2019-09-27 12:57:20 372
转载 mysql中的where和having的区别
分享关于mysql中的where和having子句的区别,本文主要分享对象为刚刚接触sql的新人,下面将结合实际案例分析:下面以一个例子来具体的讲解:1. where和having都可以使用的场景1)select addtime,name from dw_users where addtime> 15000000002)select addtime,name from dw_...
2019-09-26 21:57:36 101
原创 统计学习方法——决策树
目录思维导图决策树是什么?决策树的学习一、特征选择(1)信息增益(2)信息增益比:二、决策树的生成三、决策树的剪枝具体做法:CART算法CART树的生成CART剪枝思维导图决策树是什么?本质是:从训练数据集种归纳出一组分类规则,与训练数据集不想矛盾的决策树(即能对训练数据进行正确分类的决策树)可能有多个,也可能一个也没有。决策树可以认为是if-then规则的集合,也可以认为是定义在特...
2019-09-26 16:46:02 272
原创 统计学习方法——朴素贝叶斯
Reference:https://www.jianshu.com/p/7e8504e9b929https://www.jianshu.com/p/94ec02bcd663目录朴素贝叶斯是什么?贝叶斯理论与条件概率贝叶斯理论条件概率使用条件概率来分类朴素贝叶斯为何朴素?Note:朴素贝叶斯是什么?基于贝叶斯定理与特征条件独立假设的分类方法。对于给定的训练集,首先基于特征条件独立假设学习输...
2019-09-25 20:08:59 259
原创 统计学习方法——k-近邻算法
所谓k-近邻(KNN)是基本且简单的分类与回归方法,说的就是每个样本的分类都可以用它最接近的K个邻居来代表。KNN算法的基本做法是:1、对给定的训练实例点和输入实例点,首先确定输入实例点的k个最近邻训练实例点,然后利用这k个训练实例点的类的多数来预测输入实例点的类。2、k近邻模型对应于基于训练数据集对特征空间的一个划分。k近邻法中,当训练集、距离度量、k值及分类决策规则确定后,其结果唯一确定...
2019-09-25 14:05:41 298
原创 统计学习方法——感知机
统计学习方法—感知机思维导图感 知 机 学 习一、感知机的结构1、是什么?2、目的:3、模型结构:如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入思维导图你好...
2019-09-24 15:29:27 451
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人