机器学习
文章平均质量分 82
kanbuqinghuanyizhang
这个作者很懒,什么都没留下…
展开
-
个人人工智能小项目-AI爱
头像识别、自然语言处理原创 2020-03-06 17:56:08 · 1340 阅读 · 0 评论 -
特征向量降维常见的几种方法
高纬度特征带来的问题这里就简单描述下。 通常我们会使用特征训练模型或特征矩阵求相似度。高维的特征带来的计算成本非常大,甚至完不成。同时一般高维的特征都比较稀疏,直接使用高维的特征训练需要样本量很大,难以拟合,模型效果不好。训练模型时特征的筛选通常我们训练模型时,会人为挑选特征,控制每类特征维度范围,比如年龄我们使用one-hot的方式表示,分成0-10,10-20...,>10...原创 2018-08-04 15:13:08 · 13772 阅读 · 0 评论 -
faiss简介及示例
简介faiss是为稠密向量提供高效相似度搜索和聚类的框架。由Facebook AI Research研发。 具有以下特性。1、提供多种检索方法2、速度快3、可存在内存和磁盘中4、C++实现,提供Python封装调用。5、大部分算法支持GPU实现下面给出一些快速链接方便查找更多内容。github 官方文档 c++类信息 Troubleshooting 官方安装文档...原创 2018-06-22 15:39:18 · 52060 阅读 · 9 评论 -
连续特征离散化常用方法
无监督方法1、等宽分箱法比如我们的特征数据在0-100,之间,等宽分成10份,分别为[0-10],[11-20],...,[90-100]假设有个数据值为11,那么其对应的one-hot向量为[0,1,0,0,0,0,0,0,0,0]等宽分箱法的缺陷:假设有个别特征值过大,那么和上面分同样多份宽度会拉长,实例就主要集中在前面的箱体中。那么我们设立阈值之外的一等份。此时我们可...原创 2018-04-25 23:05:27 · 4525 阅读 · 0 评论 -
机器学习_特征挑选的方法
todo:暂时是看到一些常用场景对应的一些方法,比较乱,之后统一整理下这篇知乎有关于特征选择的大纲。特征挑选方法特征选择的优点:提高效率,特征越少,模型越简单正则化,防止特征过多出现过拟合去除无关特征,保留相关性大的特征,解释性强特征选择的缺点:筛选特征的计算量较大不同特征组合,也容易发生过拟合容易选到无关特征,解释性差线性模型1、可以通过计...原创 2018-03-13 15:41:31 · 356 阅读 · 0 评论 -
机器学习_阅读笔记_朴素贝叶斯
理论1、算法优缺点: (1)优点:在数据较少的情况下,依然有效,可以处理多分类问题; (2)缺点:对输入数据的准备方式较为敏感。 (3)适用于标称型数据2、条件假设: (1)假设变量间相互独立,即p(x|ci)=p(x1|ci)∗p(x2|ci)∗···∗p(xn|ci)p(x|c_i)=p(x_1|c_i)∗p(x_2|c_i)∗···∗p(x_n|c_i); (xix_i原创 2018-01-18 19:31:16 · 191 阅读 · 0 评论 -
机器学习_阅读笔记_决策树
决策树(decision tree)是一种基本的分类与回归方法,本文讨论分类决策树。它可以认为是if-then规则的集合,也可以认为是定义在特征空间与类空间上的条件概率分布。决策树的学习通常包括三个步骤:特征选择,决策树的生成和决策树的修剪。模型与学习模型 分类决策树模型是一种描述对实例进行分类的树形结构。决策树由结点(node)和有向边(directed edge)组成。结原创 2018-01-07 11:49:59 · 690 阅读 · 0 评论 -
机器学习_阅读笔记_K近邻(KNN)
k近邻算法简单,直观:给定一个训练数据集,对新的输入实例,在训练集中找到与该实例最邻近的k个实例,这k个实例的多数属于某个类,就把该输入实例分为这个类。k近邻不需要像LR一样去训练。K近邻模型由三个基本要素组成:距离度量,k值选择,分类决策规则距离度量一般采用欧式距离k值选择k值得选择会对k近邻算法的结果产生重大影响。 如果选择的k值较小,就相当于用较小的的邻域中的原创 2018-01-07 10:27:44 · 216 阅读 · 0 评论 -
机器学习_阅读笔记_SVM
这里给出阅读的记录,后面把这些内容整理整理成一篇文章第一步:宏观概念支持向量机(SVM)是什么意思? 里提供了一些图片解释第二步:最优化公式推导阅读>第七章-支持向量机 7.1.3 间隔最大化 推导得到最优化公式 第三步:拉格朗日对偶算法首先理解拉格朗日乘子法 拉格朗日乘子法如何理解?介绍了基本的概念 拉格朗日乘子法 那些年学过的高数对知乎上部分回答的一原创 2018-01-16 19:27:42 · 186 阅读 · 0 评论 -
机器学习_阅读笔记_算法评估
样本量与误差样本量影响训练误差及验证误差。 总体情况是:样本量少的时候,训练算法基本都能正确拟合数据,所以样本量少的时候训练误差小,但泛化程度不好,对新样本的适应能力不好,所以样本量少的时候交叉验证的误差大。 当样本量增加是,训练很难对所有样本拟合,故样本量增大的时候训练误差增大,但算法拟合能力更强了,对新样本的适应能力强,所以样本量增大的时候交叉验证的误差减少。 如下示意图:原创 2018-01-16 15:28:21 · 500 阅读 · 0 评论 -
机器学习_阅读笔记_LR
定义 逻辑回归(Logistic Regression)与线性回归(Linear Regression)都是一种广义线性模型(generalized linear model)。逻辑回归假设因变量 y 服从伯努利分布,而线性回归假设因变量 y 服从 高斯分布。 因此与线性回归有很多相同之处,去除Sigmoid映射函数的话,算法就是一个线性回归。可以说,逻辑回归是以线性回归为理论支持原创 2018-01-15 23:44:35 · 278 阅读 · 0 评论 -
机器学习_阅读笔记_梯度下降
前言梯度下降法可以帮助我们找到某个函数的极小值或者最小值。这里先拿一个损失函数来说,假设损失函数如下: 我们最终的目的求参数θ0\theta_0θ1\theta_1使得损失函数对于给定的样本求得的值最小。θ0\theta_0、θ1\theta_1对应损失函数的图像关系类似一个碗状(bowl shape) 单个参数与损失函数的关系图类似于以下二维图: 我们发现:当θ\原创 2018-01-15 11:37:17 · 332 阅读 · 0 评论 -
机器学习_特征处理
内容来源于其他博客,这里做了个汇总,侵删。标准化归一化数据数据标准化是将数据按比例缩放,使之落入一个小的特定区间。去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。最典型的就是数据的归一化处理,即将数据统一映射到[0,1]区间上。归一化的作用: 1. 提升模型的收敛速度 如下图,x1的取值为0-2000,而x2的取值为1-5,假如只有这原创 2018-01-07 10:29:50 · 1229 阅读 · 0 评论 -
机器学习
数学基础导数导数与极值当一阶导数等于0,而二阶导数大于0时,为极小值;当一阶导数等于0,而二阶导数小于0时,为极大值点,当一阶导数、二阶导数都等于0时,为驻点。正弦余弦余弦余弦图像余弦相似度常见差值均方误差(mean square error): * 百度知道方差: * 方差计算公式 * 对数指数和对数的公式总结*...原创 2018-01-07 09:24:54 · 483 阅读 · 0 评论 -
最大似然估计
最大似然估计简单的理解就是给定已知样本,推导出最有可能(最大概率)导致出现这样结果的参数值 先举个例子来说: 抛硬币80次,49次正面,31次反面,我们需要求出抛硬币为正面的概率p。那出现这个情况的概率为p49(1−p)31p49(1−p)31p^{49}(1-p)^{31},求出ppp的值使得该值为最大值。这时只需要求上述式子求导并令一阶导数为零就可以求出ppp的值了。解得最大似然值p̂&n...原创 2018-01-07 10:44:48 · 496 阅读 · 0 评论