自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(29)
  • 收藏
  • 关注

原创 Gradient boosting Newton boosting

Gradient boostingNewton boostingNewton tree boosting

2018-01-22 17:19:57 613

原创 Leetcode 542 Matrix

题目链接第一版BFS:没找到毛病通不过,也是醉了(复杂度有点高呀,小伙子)class Solution {public: void bfs(vector<vector<int>>&matrix,int i, int j, int &cnt){ if(matrix[i][j] == 0)return; cnt++; if(i > 0)bfs(m

2017-10-08 16:32:50 332

原创 K最小

好久不切题,c++语法都忘差不多了。。。。。,找几道题练练手 之前的题解放github上了,以后再切题,尽量两边都放吧 部分leetcode的切题题解题目大意:给定数据求前K小class Solution {public: vector<int> GetLeastNumbers_Solution(vector<int> input, int k) { if(k

2017-10-07 21:21:33 324

原创 中文文本处理传统方法

分词机械分词 依据词典匹配分词 逆向匹配效果一般优于正向匹配 最大匹配先匹配长词,递减至短词,长度为2时仍未匹配,单词切割即可正向最大匹配正向最小匹配逆向最大匹配逆向最小匹配一体化分词 考虑统计词频,寻找在给定字串上最大概率的分割序列(以词频统计做概率似然) 歧义字段发现:双向扫描分词结果不一致判为歧义字段词性标注:用词性标注分别切割计算分词路径概率值,选取大概率分

2017-10-05 14:05:39 1151

原创 机器学习简单梳理

模型评估与选择留出法:留出一部分作为验证集合交叉验证:轮流作为验证集合自助法:随机抽样,袋外误差作为泛化误差,袋外概率1/e 约等于0.368 自助法(boostrap):适用于小数据集,不易区分训练和测试时,抽在抽样误差查全率R:召回率 =(预测正且真实正)/真实正例查准率P:准确率= (预测正且真实正)/预测正例 F1值: 2pr/(p+r)宏查全率:多个两两分类混淆矩阵查全率

2017-10-03 15:26:17 472

原创 机器学习常见算法总结

偏差方差 偏差:预测值期望E与实际值的差距,差距越大,越偏离真实数据 方差:预测值变化范围,离散程度,离期望越远方差越大 模型与真实数据的误差是两者之和 Error = Bias + Variance 模型复杂度增加,偏差减小,方差变大** 小训练集偏向于高偏差/低方差模型,因为数据集小,高偏差/低方差模型(例如,朴素贝叶斯NB)容易过拟合(over fitting)

2017-10-02 12:26:20 382

原创 CS224D:Deep Learning for NLP Note1

keywords: Word Vectors, SVD, Skip-gram. Continuous Bag of Words(CBOW). Negative Sampling. 关键词:词向量,奇异值分解,Skip-gram,CBOW,负抽样词向量 One-hot vector: Represent every word as an R|V|×1 vector with all 0s

2017-09-24 11:36:14 306

原创 Andrew Moore CMU machine learning Notes(ML part)

墒增益增益率贝叶斯分类器朴素贝叶斯 分布规则高斯分布MLE线性回归线性感知器线性感知激活动量方法交叉验证最近邻k邻近核回归(近邻加权)局部加权(拟合加权) 高斯混合假设马尔科夫描述三问题 前向迭代层次计算解决概率计算 维比特算法动态规划记录最佳路径 模型学习EM算法EM for HMM

2017-09-23 18:51:09 396

原创 《统计学习方法》笔记三

EM 含有隐变量的概率模型参数的极大似然估计法或者极大似然后验概率估计EM算法本质EM算法 高斯混合模型:顾名思义,高斯,混合算法EM迭代:提升下界逼近全局最优GEMCOMMENTS隐马尔科夫隐马尔科夫基本概念 核心:初始状态分布,中间状态转移,由状态生成观测 应用:由大量训练资料,学习上诉三个参数矩阵,模拟资料分布状态,给出新的观测序列,反求中间状态(序列标注问题)概率计算前向

2017-09-16 20:43:54 247

原创 最小二乘法python实现

最小二乘法回归参数梯度代码import pandas as pdimport numpy as npdf = pd.read_csv('https://archive.ics.uci.edu/ml/' 'machine-learning-databases/iris/iris.data', header = None)import matplotlib

2017-09-16 02:09:40 1545

原创 《统计学习方法》笔记二

逻辑回归与最大墒逻辑回归logistic分布logistic回归模型 逻辑回归中输出是输出的线性函数多项logistic回归最大墒模型最大墒模型的最优化函数拉格朗日转化 最大化过程的等价于最大熵模型的极大似然估计最优化算法*最优化算法待理解*SVM距离 当||W|| = 1 时,函数间隔等于几何间隔 间隔最大化约束最优化问题 支持向量对偶问题 线性可分支持向量机软间隔

2017-09-10 16:34:09 259

原创 《统计学习方法》笔记一

统计学习对象 统计学习对象是数据,从数据出发,提取出特征,抽象出数据模型,发现数据知识,用于对回溯的分析和预测中统计学习方法 获取新年数据集合 确定所有可能包含模型的假设空间,即学习模型的集合(模型) 确定模型选择准则(策略) 实现最优求解模型的算法(算法) 选择最优模型 利用最优模型分析预测新数据 监督学习每一个输入实例由一个输入向量表示 回归:输入输出变

2017-09-09 16:16:44 954

原创 MySQL架构与innodb引擎

线程模型InnoDB引擎逻辑与物理组织MySQl查询原理InnoDB缓存池InnoDB异步IO

2017-09-03 12:18:07 340

原创 回归(regression)

回归定义:岭回归与LASSO回归支持向量机转化 非线性支持向量机核函数流形学习测地线(流形空间距离)PCA流形空间距离ISOMAPKD-Tree 优化搜索树Approximate Kmeans 推荐SVD

2017-09-03 11:43:24 497

原创 机器学习技法系列五

Blending and Bagging aggregation: mix and combine hypotheses for better performance集成模型性能取决于子模型的期望和偏差 blending(多模型集成混合) 子决策桩的不同blending方式(线性非线性)Bagging(多次重抽样模拟多样本)AdaBoostboost:放大错误样例抽样权重,使得错误出现

2017-09-03 10:51:28 260

原创 机器学习技法系列三

SVM泛化模型两种SVM的利用方式核技巧的本质 线性模型L2范化可核化的理解是,w*W会转换出现X*X,从而使用核函数简化计算KLR核技巧展开 L2泛化保证核函数可作用

2017-08-27 10:57:00 206

原创 机器学习技法系列二

核方法 核方法目标:简化计算复杂度,简化内积的计算多项式核 多项式核函数:不同核函数,定义不同的支持向量,导致计算出来的支持向量不同无限多维高斯核 y越大,拟合程度越大,过大会过拟合 软间隔 泛化形式之一,允许部分误分类 参数C决定允许错误的范围 软间隔的拉格朗日形式与简化 通过偏导数为0,消除冗余参数,消除冗余参数之后与硬间隔SVM形式一致 关于S

2017-08-22 08:17:02 223

原创 机器学习技法系列一

线性SVM 最大间隔:所有训练样例距离分界超平面的距离取最小值,最大化最小值即可获得最胖分界面支持向量条件max margin :边界最大化yn(wx+b)>0 同号同侧,表明分类正确(硬间隔)margin边界取全部样本距离最小值 转化最优,另min (y(wx+b))= 1,,边界最大化转化为max(1/w),同时可转化为min(w*w/2) 限制转为无限制 存在1-y(wx+b)

2017-08-19 23:30:19 396

原创 机器学习基石系列六

过拟合噪声数据和过高的VC维容易造成过拟合过拟合处理:过于拟合训练数据,泛化误差比较大泛化误差L1与L2泛化比较三个学习原则奥卡姆剃刀:简单模型更有效,复杂模型容易过拟合 抽样偏差:样本抽样不均匀,结果必然偏差(garbage in,garbage out,没有免费的午餐 )数据驱动 Comments

2017-08-19 19:21:37 266

原创 机器学习基石系列五

线性回归平方误差梯度 矩阵求导线性回归解 求解方式PCA,SVD取决于X矩阵性质,特征值等误差逼近 n足够大时,Ein与Eout的逼近保证了线性可学习逻辑回归sigmoid函数三种线性模型比较逻辑回归优化方向梯度下降迭代优化随机梯度下降回归用于多分类OVA:每次分出一类OVO:每次区别两类,使用选举算法选择最终分类,避免不平衡

2017-08-19 18:51:53 328

原创 机器学习基石系列四

vc维定义 最大非break point 点

2017-08-19 16:56:56 268

原创 机器学习基石系列三

课程关联与可学习核心问题上界限制增长上限上界证明(不太懂)

2017-08-19 15:51:52 285

原创 机器学习基石系列二

分类 根据输出空间的不同分类,二分类,多分类,回归,结构学习等 输出空间说明了学习目的 监督与无监督输入数据带标签(y)即为:有监督输出输出无标签(y)即为:无监督 分类聚类问题,异常检测等都是无监督半监督: 标记少量数据避免标记全量数据的麻烦

2017-08-19 13:03:23 315

原创 机器学习基石系列一

问题解析规范化机器学习定义感知机:线性加权分类 类比常见的加权平均和线性组合形成分类门限值PLA:基于实例的学习,错误反馈纠正 每次迭代选择误分类样本更新权值,直到便利样本未发现误分类点线性可分结果收敛(单步优化,且存在上限,迭代优化次数也就有限)POCKET算法 随机样本点优化,收敛速度慢于PLA - 存在噪声数据时,对PLA的一种近似,通过足够多次随机迭代逼近特征函数

2017-08-19 02:00:57 266

原创 如何选择机器学习算法

这篇文章适用于初级和中级数据科学工程师以及对区分和应用机器学习算法解决他们感兴趣的问题的的数据分析工程师初学者常见的典型问题就是面对种类繁多的机器学习算法,该如何选择使用,答案由很多因素决定,包括:- 数据量,数据质量,数据特征- 可得计算时间- 任务紧急程度- 目标操作在未尝试不同的算法之前,即便是很有经验的数据科学家也很难确定哪个算法性能更好,我们无法在确定一个一以贯之

2017-08-09 22:17:49 275

原创 回归

岭回归基本概念在进行特征选择时,一般有三种方式:1. 子集选择 2. 收缩方式(Shrinkage method),又称为正则化(Regularization)。主 要包括岭回归和lasso回归。 3. 维数缩减 岭回归(Ridge Regression)是在平方误差的基础上增加正则项 通过确定的值可以使得在方差和偏差之间达到平衡:随着的增大,模型方差减小而偏差增大。

2017-08-08 08:57:00 295

原创 PCA与SVD简洁解析(参考CS231n)

PCA算法PCA的算法步骤:设有m条n维数据。1)将原始数据按列组成n行m列矩阵X2)将X的每一行(代表一个属性字段)进行零均值化,即减去这一行的均值3)求出协方差矩阵C=1mXXTC=1mXXT4)求出协方差矩阵的特征值及对应的特征向量5)将特征向量按对应特征值大小从上到下按行排列成矩阵,取前k行组成矩阵P6)Y=PXY=PX即

2017-07-30 20:21:03 831

原创 Bagging 与Boosting 特点分析

bagging 与boosting的数学原理

2017-07-30 12:26:01 3772

转载 shell基本变量说明

shell基本变量说明$$Shell本身的PID(ProcessID)$!Shell最后运行的后台Process的PID$?最后运行的命令的结束代码(返回值)$-使用Set命令设定的Flag一览$*所有参数列表。如"$*"用「"」括起来的情况、以"$1 $2 … $n"的形式输出所有参数。$@所有参数列表。如"$@"用「"」括起来的情况、以"$1

2017-07-14 10:44:04 222

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除