troysps-CSDN博客

原创信息量, 信息熵, 信息增益, 互信息, 交叉熵与相对熵

熵信息如何量化?信息怎么度量, 在生活中当发生某些不可思议的事情, 往往我们会用’信息量大’, 这个词语进行描述。那么信息量大, 这一词语在对信息量化中, 体现了哪些思路? 1. 当小概率事件发生时, 我们才会感觉’信息量大’ 2. 当大概率事件发生时, 我们会感觉’理所应当’, ‘信息量小-正常操作’ 已知上述信息量化度量的特点, 如何设置函数使用数学直观的表现...

2018-07-04 19:33:25 1360

原创支持向量机(support vector machine)

支持向量机(Support vector machine)支持向量机是一种二分类模型基本模型是定义在特征空间上间隔最大化的线性分类器学习策略:间隔最大化可形式化为求解一个凸二次规划的问题也等价于正则化的合页损失函数的最小化问题支持向量机的学习算法是求解凸二次规划的最优化算法支持向量机面对不同的数据集有不同的分类策略线性可分支持向量机硬间隔最大化线性支...

2018-05-25 19:51:25 1462

原创 logistics regression原理与线性回归

逻辑回归从分类问题线性回归到逻辑回归分类问题0:Negative class1:Positive Class二分类问题开始将已知数据分类 0 1采用算法线性回归假设函数 hx = theta0 + theta1*x1 + ... + thetaN * xN设置阈值---什么情况下属于1类 or 0类 &amp;gt; 0.5 1 &amp;lt; 0.5 0...

2018-05-13 14:33:35 1223

原创 Self-Attention机制学习

仅聚焦于self attention, 了解self-attention的设计思想, 原理，以及代码实现

2022-05-31 18:37:39 466

原创卡方分箱(Chi Merge 算法)

卡方分箱原理及实现(Chi Merge 算法)一. 卡方分布卡方分布的定义:若k个独立的随机变量Z1,Z2,…,Zk满足标准正态分布N(0, 1), 则这k个随机变量的平方和:X=∑i=1kZi2X = \sum_{i=1}^{k}Z_{i}^2X=i=1∑kZi2为服从自由度为k的卡方分布, 记做:X−χ2(k)或者记作X−χk2X-\chi^{2}(k) 或者记作X-\c...

2020-01-19 10:16:33 6881

原创莱文斯坦距离计算(LD levenshtein Distance)

莱文斯坦距离计算(LD levenshtein Distance)基本理论莱文斯坦距离用户衡量两个字符串之间的相似度.s(原字符串)和t(目标字符串).莱文斯坦距离被定义为"将字符串s变换为字符串t所需的删除插入替换操作的次数算法原理该算法的解决是基于动态规划的思想，具体如下：设 s 的长度为 n，t 的长度为 m。如果 n = 0，则返回 m 并退出；如果 m=0，则返回 n 并退...

2020-01-19 10:03:49 1751

原创 SAS编程基础(2):常用数据步与过程步

/*2018/11/29 SAS开发学习常用语法及关键字数据集合并：merge set排序：proc sort转置：proc transpose写sql语句：proc sql频数统计：proc freqproc hpsummary统计分析：proc meansproc univariateproc logistic*//* 数据步与过程步 // 数据步读取处理数据...

2018-11-29 18:00:07 4909

原创 SAS编程基础(1):语法基础

/*if判断 */data custer;input id $ level $ amount 5. @;label id=‘卡编号’ level=‘级别’ amount=‘信用额度’;cards;1001 A 1991002 B 1001003 C 20001004 A 2234321005 B 1000321006 C 100000;data atype btype ct...

2018-11-29 09:15:12 3007

转载核函数

核函数核函数基本想法:通过非线性变换将数据从一个空间映射到另一个空间(欧式空间对应于希尔伯特空间) 扩展–核函数是一个独立的概念(只是在机器学习中仅仅用作将数据从低纬度映射到高纬度)1. 核函数与SVM完全是两个正交的概念, 相互独立, 早在SVM提出之前, RKHS的应用就比较广泛了, 一个经典的列子就是信号处理中信号检测问题:给定一段时间序列, 如何判断信号不是随机噪声而是有特定的模...

2018-07-06 08:58:31 1107

原创 Machine Learning -- 框架学习(1)

Machine Learning – 框架学习(1)什么是机器学习需要进行大量手工调整或需要拥有长串规则才能解决的问题：机器学习算法通常可以简化代码、提高性能。问题复杂，传统方法难以解决：最好的机器学习方法可以找到解决方案。环境有波动：机器学习算法可以适应新数据。自适应性洞察复杂问题和大量数据。处理大量数据建立模型分析数据机器学习系统的类型是否存在先验数据(...

2018-06-29 02:35:39 507

原创 web project (2nd day)

Asynchronous tasksWhat is Asynchronous?for ask the question: there is anther question what is Synchronous? In web project, we konw a method call ajax. ajax is a Asynchronous method. Its charac...

2018-06-27 11:50:11 251

原创 web project (1st day)

what should we do before start our web projectFirst–install what we needEnsure which technologies will be used think about all of them, such as DATABASE, CACHE, WEB FRAMEWORK, CELERY … so: In py...

2018-06-26 01:47:23 265

原创 Singular Value Decomposition：奇异值分解(降维)

SVD 降维相似度计算: 1.欧式距离向量的范数2 2.皮尔逊相关系数 cov(X,Y)varxvarycov(X,Y)varxvary\frac{cov_{(X,Y)}}{var{x} var{y}} 均值意义:样本集合的中间点方差意义: 样本点的离散程度协方差意义: 度量两个随机变量关系的统计量度量各个维度偏离其均值的程度...

2018-06-22 14:55:36 888

原创 PCA 降维

PCA 简化数据通俗理解: 找出一个最主要的特征进行分析例子: 考察一个人的智力情况直接看数学成绩就行例子: 观看电视将显示器的百万像素转化为一个三维图像重点: 降维技术主成分分析(PCA) 对半导体数据进行降维处理降维技术1.数据集更容易使用2.降低算法的计算开销3.去除噪声4.使得结果易懂 ---(有利于可视化)几种不...

2018-06-20 20:04:51 616

原创 FP-Growth算法理解

FP-Growth算法理解基本概念FP-Growth 全称: Frequent Pattern Growth—-频繁模式增长在整个算法执行过程中,只需要遍历数据集2次,就可完成频繁模式的发现FP-growth算法简介一种非常好的发现频繁项集的算法那基于Apriori算法构建但是数据结构不同,使用叫做FP树的数据结构来存储集合算法核心思想基于数...

2018-06-20 10:47:05 1992

原创 Apriori算法：关联分析

Apriori算法: 关联分析Apriori算法概览什么是关联分析? 找出大规模数据集中寻找物品间的隐含关系Apriori算法: 创建函数频繁项集高效发现的函数,从而从频繁项集中抽取关联规则Apriori算法的优缺点优点: 易编码实现缺点: 在数据集上较慢使用数据类型: 数值型或者标称型关联分析关键词: 频繁项集: 经常一起出现关联规则: 暗...

2018-06-15 16:28:56 569

原创 K-Means 算法聚类

K-Means 算法聚类非监督学习: 从数据中发现隐含的关系对数据进行聚类 cluster 监督学习: 根据已有的历史数据对数据进行分类 classificationK-Means 算法问题:如何对数据进行聚类?假设数据集T中, 由K类的数据, 但是如何确定这些数据之间存在关系损失函数: 平方误差函数我们可以以它们之间距离度量确定数据之间存在关系,越是...

2018-06-14 18:15:29 694

原创 K Nearest Neighbor

KNN算法概述KNN算法：即最邻近分类算法（K-NearestNeighbor算法思路：如果一个样本在特征空间中的k个最相似（即特征空间中最临近）的样本中的大多数属于某一个类别则该样本也属于这个类别 k通常是不大于20的整数 KNN算法中所选择的邻居都是已经正确分类的对象该方法在定义决策上只依据最邻近的一个或几个样本的类别来决定待分样本所属的类别如上所示...

2018-06-11 23:33:03 1167

原创预测算法-线性回归（鲍鱼年龄预测）

预测算法-线性回归面对可逆矩阵线性回归(模型，策略，算法) 模型: h(x)=WTx+bh(x)=WTx+bh(x) = W^T x + b 损失函数: J(θ)=∑i=1N(f(xi)−yi)2J(θ)=∑i=1N(f(xi)−yi)2J_{(\theta)} = \sum\limits{i=1}^{N}(f(x_i)-y_i)^2 目标函数为:minJ(θ)=∑i=1N(f(xi...

2018-06-09 23:32:05 15353 3

原创特征工程-处理样本不均衡现象

处理样本不均衡现象样本非均衡现象: 正例子数目与反例数目不相等 (相差很大)1. 能否收集到更多的数据2. 尝试使用其他的评价指标 error Rate: 不能用于非均衡的数据集因此可以使用其他的评价指标 Procision：精准度计算 TPTP+FPTPTP+FP\frac{TP}{TP+FP} 实际被检索到的(TP+FP) Recall: 召回率 TPTP+...

2018-06-06 16:20:15 1497

原创 AdaBoost算法理解与提升树原理及实现

AdaBoost算法理解与提升树原理及实现从机器学习三要素理解AdaBoost算法AdaBoost算法模型:加法模型 f(x)=∑m=1MalphamGm(x)f(x)=∑m=1MalphamGm(x)f(x)=\sum\limits_{m=1}^{M}alpha_mG_m(x) , 最终模型:最终模型:最终模型:G(x) = sign(f(x))$$ 损失函数:指数函数...

2018-06-06 15:54:07 649

原创集成方法（Boosting:以AdaBoost为例）原理以及实现

集成方法(boosting又称为提升方法)提升方法重要概念1.思路:三个臭皮匠顶个诸葛亮2.重要概念: PAC:(Probably approximately correct):概率近似正确强可学习:PAC中,面对假设模型,如果存在一个多项式的学习算法能够学习它,且正确率很高,那么这个概念就是强可学习弱可学习:PAC中,面对假设模型,如果存在一个多项式的学习算法能够学习它,且...

2018-06-04 23:04:52 943

原创统计学习方法-方法概论(3)

分类问题概述分类是监督学习的一个核心问题在监督学习中,当输出变量Y取有限个离散值时,预测问题便成为分类问题输入变量X可以是离散的,也可以是连续的监督学习从数据中学习一个分类模型或分类决策函数称为分类器分类器对新的输入进行输出的预测称为分类可能的输出称为类评价指标对于二类分类问题常用的评价指标是精确率与召回率分类器在测试数据集上的预测或正确或不正确有四...

2018-06-02 18:23:48 172

原创统计学习方法-方法概论(2)

统计学习方法-方法概论(2)模型评估与模型选择统计学习的目的是使学到的模型不仅对已知数据而且对位置数据都能有很好的预测能力不同的学习方法会给出不同的模型当损失函数给定时基于损失函数的模型的训练误差与模型的测试误差: 为学习方法评估的标准注意: 统计学习方法具体采用的损失函数未必是评估时使用的损失函数当然让两者一致是比较理想的训练误差: 假设学习到的模型是Y=f^(...

2018-06-02 17:28:32 428

原创集成方法(bagging:以随机森林为例)及声呐信号分类项目实现

集成方法概念: 对其他算法进行组合的一种形式集成方法:(1)投票学习(bagging:自举汇聚法, bootstrap aggregating):基于数据随机抽样分类器构造的方法(2)再学习(boosting):基于所有分类器的加权求和bagging与boosting简述bagging：构建多个分类器逐一投票投票多的被视为分类项例子:美女选择择偶对象的时...

2018-06-02 11:50:31 1151

原创核函数以及SMO算法实现手写数字识别

核函数使用以及SMO算法实现手写数字识别核技巧什么是核函数解决什么问题1.非线性分类问题–使用核技巧解决的问题非线性分类问题是指利用非线性模型才能很好的进行分类的问题如图:实质上是将非线性问题 — 转化为线性问题设原空间为χ⊂R2,x=(x(1),x(2))T∈χχ⊂R2,x=(x(1),x(2))T∈χ\chi \subset R^2, x=(...

2018-05-30 11:42:23 1935

原创支持向量机（SMO算法原理与简化版实现）

SMO算法原理及实现支持向量机的学习问题本质上是求解凸二次规划问题 SMO算法序列最小最优化算法就是求解该问题的代表性算法 SMO算法解决的凸二次规划的对偶问题: mina12∑i=1N∑j=1NαiαjyiyjK(xi,xj)−∑i=1Nαimina12∑i=1N∑j=1NαiαjyiyjK(xi,xj)−∑i=1Nαi\min\limits_{a} \frac{1}{2} \su...

2018-05-29 17:30:31 2760

原创 Flask Template ( 模板学习）

学习目标基本使用过滤器&自定义过滤器控制代码块宏、继承、包含Flask 的模板中特有变量和方法CSRFJinja2模板引擎简介(template)模板视图函数的主要作用是生成请求的响应，这是最简单的请求。实际上，视图函数有两个作用：处理业务逻辑和返回响应内容。在大型应用中，把业务逻辑和表现内容放在一起，会增加代码的复杂度和维护成本。本节学到的模板，它的作用即是承...

2018-05-27 09:17:09 36206 1

原创 Flask View（视图学习）

FlaskFlask 简介什么是flask? 用于进行 web开发的python框架业务逻辑处理协议处理不需要操心Flask：使用架构MVTM：model 用于和关系型数据库交互 V: View 接受请求处理请求返回相应 T:Template: 模板用于展示一个html页面为什么采用mvt 目的:低耦合模块化优点:处理内容显示内容相互独立...

2018-05-26 23:48:08 7964

原创 Vue组件化开发

Vue js组件化开发Vue js 对象简写<!DOCTYPE html><html lang="en"><head> <meta charset="UTF-8"> <meta name="viewport" content="width=device-width, initial-

2018-05-19 12:50:43 2698

原创 Vue JS 学习

Vue js 学习Vue js 简介Vue.js是前端三大新框架：Angular.js、React.js、Vue.js之一，Vue.js目前的使用和关注程度在三大框架中稍微胜出，并且它的热度还在递增。Vue.js可以作为一个js库来使用，也可以用它全套的工具来构建系统界面，这些可以根据项目的需要灵活选择，所以说，Vue.js是一套构建用户界面的渐进式框架。Vue的核心库只关注视图层...

2018-05-19 12:38:20 1579

原创统计学习方法 -- 方法概论（1）

站在巨人肩上统计学习统计学习的特点统计学习是关于计算机基于数据构建概率统计模型并运行模型对数据进行预测与分析的一门学科统计学习的特点以计算机及网络为平台以数据为研究对象目的是对数据进行预测以及分析以方法为中心构建模型以及应用模型概率论统计学信息论信息理论最优化理论交叉学科统计学习对象是数据 — 连续变量离散变量目的: 用于数据进行预测与分...

2018-05-15 11:42:01 231

原创 jquery进阶

jquery 进阶jquery特殊效果fadeOut() 淡出fadeToggle() 切换淡入淡出hide() 隐藏元素show() 显示元素toggle() 切换元素的可见状态slideDown() 向下展开slideUp() 向上卷起slideToggle() 依次展开或卷起某个元素<!DOCTYPE html><html lang="en...

2018-05-15 09:15:01 675

原创 Jquery 入门

jquery 入门等待文档加载完毕将获取元素的语句写到页面头部，会因为元素还没有加载而出错，jquery提供了ready方法解决这个问题，它的速度比原生的 window.onload 更快。<!DOCTYPE html><html lang="en"><head> <meta charset="UTF-8"> &l

2018-05-15 09:07:10 244

原创 Jquery高级

Jquery 高级什么是事件:事件是可以被 JavaScript 侦测到的行为比如:JavaScript 创建动态页面。网页中的每个元素都可以产生某些可以触发 JavaScript 函数或程序的事件。比如说，当用户单击按钮或者提交表单数据时，就发生一个鼠标单击（onclick）事件，需要浏览器做出处理，返回给用户一个结果。jquery事件focus事件获取焦点事件一般不...

2018-05-13 09:41:10 959

原创 JavaScript高级

JavaScript高级函数传参 – return关闭函数’return’关键字函数中’return’关键字的作用： 1、返回函数中的值或者对象 2、结束函数的运行 <!DOCTYPE html><html lang="en"><head> <meta charset="UTF-8"> <meta n

2018-05-10 17:26:28 450

原创线性回归 --梯度下降法与标准方程法

线性回归简单线性回归机器学习三要素 – 模型策略算法线性回归输入空间为XXX 输出空间为YYY 模型:假设函数 hypothesis：hθ=θ0+θ1x1hypothesis：hθ=θ0+θ1x1hypothesis： h_{\theta} = \theta_0 + \theta_1x_1模型参数:θ0,θ1θ0,θ1\theta_0 , \theta_1思考：...

2018-05-08 22:57:40 2264 1

原创朴素贝叶斯法实现 --基于贝叶斯估计（垃圾邮件分类）

实现朴素贝叶斯的两个缺点1.在利用贝叶斯分类器对文档进行分类时，要计算多个概率的乘积以获得文档属于某个类别的概率，即计算 p(w0|1) * p(w1|1) * p(w2|1)。如果其中一个概率值为 0，那么最后的乘积也为 0。为降低这种影响，可以将所有词的出现数初始化为 1，并将分母初始化为 2 （取1 或 2 的目的主要是为了保证分子和分母不为0，大家可以根据业务需求进行更改）。2.另...

2018-05-08 15:33:19 1928

原创朴素贝叶斯法实现 --基于极大似然估计（垃圾邮件分类）

朴素贝叶斯分类器训练函数基本原理p(ci|w)=p(w|ci)p(ci)p(w)p(ci|w)=p(w|ci)p(ci)p(w)p(c_i|w) = \frac{p(w|c_i)p(c_i)}{p(w)}w表示向量由多个值组成w表示向量由多个值组成w表示向量由多个值组成即核心问题：量化为在向量w发生时属于cicic_i的概率比较问题条件概率中分母是一致的因...

2018-05-08 13:23:33 984

原创 JavaScript进阶

JavaScript进阶JavaScript函数传参<!DOCTYPE html><html lang="en"><head> <meta charset="UTF-8"> <meta name="viewport" content="width=device-width, in

2018-05-07 18:26:27 645

空空如也

空空如也