Leetcode 542 Matrix 题目链接第一版BFS:没找到毛病通不过,也是醉了(复杂度有点高呀,小伙子)class Solution {public: void bfs(vector<vector<int>>&matrix,int i, int j, int &cnt){ if(matrix[i][j] == 0)return; cnt++; if(i > 0)bfs(m
K最小 好久不切题,c++语法都忘差不多了。。。。。,找几道题练练手 之前的题解放github上了,以后再切题,尽量两边都放吧 部分leetcode的切题题解题目大意:给定数据求前K小class Solution {public: vector<int> GetLeastNumbers_Solution(vector<int> input, int k) { if(k
中文文本处理传统方法 分词机械分词 依据词典匹配分词 逆向匹配效果一般优于正向匹配 最大匹配先匹配长词,递减至短词,长度为2时仍未匹配,单词切割即可正向最大匹配正向最小匹配逆向最大匹配逆向最小匹配一体化分词 考虑统计词频,寻找在给定字串上最大概率的分割序列(以词频统计做概率似然) 歧义字段发现:双向扫描分词结果不一致判为歧义字段词性标注:用词性标注分别切割计算分词路径概率值,选取大概率分
机器学习简单梳理 模型评估与选择留出法:留出一部分作为验证集合交叉验证:轮流作为验证集合自助法:随机抽样,袋外误差作为泛化误差,袋外概率1/e 约等于0.368 自助法(boostrap):适用于小数据集,不易区分训练和测试时,抽在抽样误差查全率R:召回率 =(预测正且真实正)/真实正例查准率P:准确率= (预测正且真实正)/预测正例 F1值: 2pr/(p+r)宏查全率:多个两两分类混淆矩阵查全率
机器学习常见算法总结 偏差方差 偏差:预测值期望E与实际值的差距,差距越大,越偏离真实数据 方差:预测值变化范围,离散程度,离期望越远方差越大 模型与真实数据的误差是两者之和 Error = Bias + Variance 模型复杂度增加,偏差减小,方差变大** 小训练集偏向于高偏差/低方差模型,因为数据集小,高偏差/低方差模型(例如,朴素贝叶斯NB)容易过拟合(over fitting)
CS224D:Deep Learning for NLP Note1 keywords: Word Vectors, SVD, Skip-gram. Continuous Bag of Words(CBOW). Negative Sampling. 关键词:词向量,奇异值分解,Skip-gram,CBOW,负抽样词向量 One-hot vector: Represent every word as an R|V|×1 vector with all 0s
Andrew Moore CMU machine learning Notes(ML part) 墒增益增益率贝叶斯分类器朴素贝叶斯 分布规则高斯分布MLE线性回归线性感知器线性感知激活动量方法交叉验证最近邻k邻近核回归(近邻加权)局部加权(拟合加权) 高斯混合假设马尔科夫描述三问题 前向迭代层次计算解决概率计算 维比特算法动态规划记录最佳路径 模型学习EM算法EM for HMM
《统计学习方法》笔记三 EM 含有隐变量的概率模型参数的极大似然估计法或者极大似然后验概率估计EM算法本质EM算法 高斯混合模型:顾名思义,高斯,混合算法EM迭代:提升下界逼近全局最优GEMCOMMENTS隐马尔科夫隐马尔科夫基本概念 核心:初始状态分布,中间状态转移,由状态生成观测 应用:由大量训练资料,学习上诉三个参数矩阵,模拟资料分布状态,给出新的观测序列,反求中间状态(序列标注问题)概率计算前向
最小二乘法python实现 最小二乘法回归参数梯度代码import pandas as pdimport numpy as npdf = pd.read_csv('https://archive.ics.uci.edu/ml/' 'machine-learning-databases/iris/iris.data', header = None)import matplotlib
《统计学习方法》笔记二 逻辑回归与最大墒逻辑回归logistic分布logistic回归模型 逻辑回归中输出是输出的线性函数多项logistic回归最大墒模型最大墒模型的最优化函数拉格朗日转化 最大化过程的等价于最大熵模型的极大似然估计最优化算法*最优化算法待理解*SVM距离 当||W|| = 1 时,函数间隔等于几何间隔 间隔最大化约束最优化问题 支持向量对偶问题 线性可分支持向量机软间隔
《统计学习方法》笔记一 统计学习对象 统计学习对象是数据,从数据出发,提取出特征,抽象出数据模型,发现数据知识,用于对回溯的分析和预测中统计学习方法 获取新年数据集合 确定所有可能包含模型的假设空间,即学习模型的集合(模型) 确定模型选择准则(策略) 实现最优求解模型的算法(算法) 选择最优模型 利用最优模型分析预测新数据 监督学习每一个输入实例由一个输入向量表示 回归:输入输出变
回归(regression) 回归定义:岭回归与LASSO回归支持向量机转化 非线性支持向量机核函数流形学习测地线(流形空间距离)PCA流形空间距离ISOMAPKD-Tree 优化搜索树Approximate Kmeans 推荐SVD
机器学习技法系列五 Blending and Bagging aggregation: mix and combine hypotheses for better performance集成模型性能取决于子模型的期望和偏差 blending(多模型集成混合) 子决策桩的不同blending方式(线性非线性)Bagging(多次重抽样模拟多样本)AdaBoostboost:放大错误样例抽样权重,使得错误出现
机器学习技法系列二 核方法 核方法目标:简化计算复杂度,简化内积的计算多项式核 多项式核函数:不同核函数,定义不同的支持向量,导致计算出来的支持向量不同无限多维高斯核 y越大,拟合程度越大,过大会过拟合 软间隔 泛化形式之一,允许部分误分类 参数C决定允许错误的范围 软间隔的拉格朗日形式与简化 通过偏导数为0,消除冗余参数,消除冗余参数之后与硬间隔SVM形式一致 关于S
机器学习技法系列一 线性SVM 最大间隔:所有训练样例距离分界超平面的距离取最小值,最大化最小值即可获得最胖分界面支持向量条件max margin :边界最大化yn(wx+b)>0 同号同侧,表明分类正确(硬间隔)margin边界取全部样本距离最小值 转化最优,另min (y(wx+b))= 1,,边界最大化转化为max(1/w),同时可转化为min(w*w/2) 限制转为无限制 存在1-y(wx+b)
机器学习基石系列六 过拟合噪声数据和过高的VC维容易造成过拟合过拟合处理:过于拟合训练数据,泛化误差比较大泛化误差L1与L2泛化比较三个学习原则奥卡姆剃刀:简单模型更有效,复杂模型容易过拟合 抽样偏差:样本抽样不均匀,结果必然偏差(garbage in,garbage out,没有免费的午餐 )数据驱动 Comments
机器学习基石系列五 线性回归平方误差梯度 矩阵求导线性回归解 求解方式PCA,SVD取决于X矩阵性质,特征值等误差逼近 n足够大时,Ein与Eout的逼近保证了线性可学习逻辑回归sigmoid函数三种线性模型比较逻辑回归优化方向梯度下降迭代优化随机梯度下降回归用于多分类OVA:每次分出一类OVO:每次区别两类,使用选举算法选择最终分类,避免不平衡