![](https://img-blog.csdnimg.cn/20201014180756918.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
文章平均质量分 87
九点澡堂子
这个作者很懒,什么都没留下…
展开
-
Kernels(similarity)核函数
Kernels(核函数)使用核函数的目的:用以构造复杂的非线性分类器 Andrew NG的机器学习视频有提供比较易懂的讲解,上图: - Markdown和扩展Markdown简洁的语法 - 代码块高亮 - 图片链接和图片上传 - LaTex数学公式 - UML序列图和流程图 - 离线写博客 - 导入导出Markdown文件 - 丰富的快捷键快捷键...原创 2018-09-01 17:57:29 · 3745 阅读 · 0 评论 -
文本分类任务的基础实现(五)——机器学习部分——特征提取_Doc2vec特征+hash特征原理介绍
本文介绍前文用到的特征提取方法的原理介绍。 【写的不好,理解的不透彻,理解深刻了回来再补充,去吃公司下午茶了,嘻嘻嘻】Doc2vec特征 & hash特征1. Doc2Vec将原始数据数字化为doc2vec特征from gensim.models.doc2vec import Doc2Vec, TaggedDocument """=============...原创 2018-09-14 17:53:10 · 1703 阅读 · 1 评论 -
sklearn 神经网络MLPclassifier参数详解
class sklearn.neural_network.MLPClassifier(hidden_layer_sizes=(100, ), activation=’relu’, solver=’adam’, alpha=0.0001, batch_size=’auto’, learning_rate=’constant’, learning_rate_init=0.001, power_t=0...原创 2018-10-12 11:07:25 · 74427 阅读 · 7 评论 -
《机器学习西瓜书》学习笔记——第三章_线性模型:对数几率回归(逻辑回归)
1.经典线性模型介绍logistic回归算法描述:2. 对数几率回归(logistic regression)Logistic回归目的是从特征学习出一个0/1分类模型,而这个模型是将特性的线性组合作为自变量,由于自变量的取值范围是负无穷到正无穷。因此,使用logistic函数(或称作sigmoid函数)将自变量映射到(0,1)上,映射后的值被认为是属于y=1的概率。假设函数:其中x...原创 2018-10-07 16:20:18 · 1802 阅读 · 0 评论 -
损失函数,代价函数,经验风险,结构风险的理解和区别
理解有争议,暂时放这里,后续优化。损失函数:定义在单个训练样本的损失/误差,也就是就算一个样本的误差,比如我们想要分类,就是预测的类别和实际类别的区别,是一个样本的。代价函数(Cost function):定义在整个训练集整体的误差描述,也就是所有样本的误差的总和的平均,也就是损失函数的总和的平均。也有理解为:代价函数(Cost function):定义在整个训练集整体的误...原创 2018-10-07 16:50:10 · 3148 阅读 · 0 评论 -
《机器学习西瓜书》学习笔记——第四章_决策树
1. 基本概念决策树是一类常见的机器学习算法,是一种简单但是广泛使用的分类器。顾名思义,决策树基于树结构进行决策。一般的,一颗决策树包含一个根结点、若干个内部结点和若干个叶结点;叶结点对应于决策结果,其他每个结点则对应于一个属性测试;每个结点包含的样本集合根据属性测试的结果被划分到子结点中;根结点包含样本全集。从根结点到每个叶结点的路径对应一个判定测试序列。决策树学习的目的是为了产生一颗泛化能...原创 2018-10-07 21:17:23 · 469 阅读 · 0 评论 -
CS231n——机器学习算法——线性分类(中:SVM及其损失函数)
损失函数 Loss function在线性分类(上)笔记中,定义了从图像像素值到所属类别的评分函数(score function),该函数的参数是权重矩阵W。在函数中,数据(xi,yi)(x_i,y_i)(xi,yi)是给定的,不能修改。但是我们可以调整权重矩阵这个参数,使得评分函数的结果与训练数据集中图像的真实类别一致,即评分函数在正确的分类的位置应当得到最高的评分(score)。回到...原创 2018-10-10 17:23:15 · 5305 阅读 · 1 评论 -
CS231n——机器学习算法——线性分类(下:Softmax及其损失函数)
在前两篇笔记中,基于线性分类上,线性分类中继续记笔记。1.介绍Softmax分类器SVM和Softmax分类器是最常用的两个分类器,Softmax的损失函数与SVM的损失函数不同。对于学习过二元逻辑回归分类器的读者来说,Softmax分类器就可以理解为逻辑回归分类器面对多个分类的一般化归纳。SVM将输出f(xi,W)f(x_i,W)f(xi,W)作为每个分类的评分(因为无定标,所以难以直接...原创 2018-10-10 20:18:20 · 8703 阅读 · 5 评论 -
CS231n——机器学习算法——最优化
在线性分类的笔记中,介绍了图像分类任务中的两个关键部分:基于参数的评分函数。该函数将原始图像像素映射为分类评分值(例如:一个线性函数)。损失函数。该函数能够根据分类评分和训练集图像数据实际分类的一致性,衡量某个具体参数集的质量好坏。损失函数有多种版本和不同的实现方式(例如:Softmax或SVM)。上节中,线性函数的形式是f(xi,W)=Wxif(x_i, W)=Wx_if(xi,W)...原创 2018-10-10 21:53:33 · 367 阅读 · 0 评论 -
文本分类任务的基础实现(四)——机器学习部分——特征提取_tf-idf特征+LSA特征原理介绍
本文介绍前文用到的特征提取方法的原理介绍。TF-IDF特征+LSA特征1. TF-IDF特征将原始数据数字化为tfidf特征from sklearn.feature_extraction.text import TfidfVectorizervectorizer = TfidfVectorizer(ngram_range=(1, 2), min_df=3, ...原创 2018-09-14 10:44:24 · 2316 阅读 · 1 评论 -
CS231n——机器学习算法——线性分类(上: 线性分类器)
k-Nearest Neighbor分类器存在以下不足:分类器必须记住所有训练数据并将其存储起来,以便于未来测试数据用于比较。这在存储空间上是低效的,数据集的大小很容易就以GB计。对一个测试图像进行分类需要和所有训练图像作比较,算法计算资源耗费高。概述:我们将要实现一种更强大的方法来解决图像分类问题,该方法可以自然地延伸到神经网络和卷积神经网络上。这种方法主要有两部分组成:一个是...原创 2018-09-24 19:53:13 · 16162 阅读 · 4 评论 -
《机器学习西瓜书》学习笔记——第三章_线性模型_类别不平衡问题
类别不平衡是指分类任务中不同类别的训练样例数目相差很大现有技术大体上有三类做法解决此问题: 1. 欠采样 2. 过采样 3. 阈值移动/再缩放1. 欠采样直接对训练集里的反类样例进行欠采样,即去除一些反例使得正反例数目接近,然后再进行学习。欠采样若随机丢弃反例,可能会丢失重要信息。代表性算法:EasyEmsemble,利用集成学习机制,将反例划分为若干个集合,供不同学...原创 2018-09-08 21:53:02 · 465 阅读 · 0 评论 -
《机器学习西瓜书》学习笔记——第三章_线性模型:线性回归
1. 线性模型_基本形式向量形式为: y^=ωTy^=ωT\hat{y} = \omega^Txxx + bbbωω\omega,bbb为需要学习的参数ωω\omega直观表达了各属性在预测中的重要性,因此线性模型有很好的解释性。2. 经典的线性模型介绍线性回归(linear regression) &am原创 2018-09-05 23:40:46 · 888 阅读 · 2 评论 -
文本分类任务的基础实现(一)——机器学习部分_特征工程_代码分解
本文主要介绍文本分类任务的基础实现,主要基于机器学习sklearn/lightgbm包实现。机器学习部分主要包含特征工程和分类器两大部分:特征工程部分主要针对文本分类任务的hash/lsa/lda/doc2vec特征提取/特征选择/特征组合/特征构造进行了实现;分类器部分主要有逻辑回归/SVM/随机森林/Bagging/Adaboost/GBDT /Xgboost /LightGBM等。...原创 2018-09-12 16:15:40 · 1375 阅读 · 1 评论 -
文本分类任务的基础实现(二)——机器学习部分_分类器_代码介绍
该部分用于文本分类任务的基础实现,主要包括机器学习(ml)和深度学习(dl)两大部分,机器学习部分基于sklearn/lightgbm包实现,深度学习部使用pytorch深度学习框架。机器学习部分主要包含特征工程和分类器两大部分:特征工程部分主要针对文本分类任务的hash/lsa/lda/doc2vec特征提取/特征选择/特征组合/特征构造进行了实现;分类器部分主要有逻辑回归/SVM/...原创 2018-09-12 17:02:49 · 932 阅读 · 0 评论 -
文本分类任务的基础实现(三)——机器学习部分——特征提取_tf特征+LDA特征原理介绍
本文介绍前文用到的特征提取方法的原理介绍。tf特征+LDA特征1. tf特征(term frequency词频特征)将原始数据数字化为tf特征from sklearn.feature_extraction.text import CountVectorizervectorizer = CountVectorizer(ngram_range=(1, 2), min_df=...原创 2018-09-13 11:08:34 · 2599 阅读 · 1 评论 -
《机器学习西瓜书》学习笔记——第七章_贝叶斯分类器_朴素贝叶斯分类器
朴素:特征条件独立;贝叶斯:基于贝叶斯定理。朴素贝叶斯是经典的机器学习算法之一,也基于概率论的分类算法,属于监督学习的生成模型。朴素贝叶斯原理简单,也很容易实现,多用于文本分类,比如垃圾邮件过滤。1.算法思想——基于概率的预测贝叶斯决策论是概率框架下实施决策的基本方法。对分类任务来说,在所有相关概率都已知的情况下,贝叶斯决策论考虑如何基于这些概率和误判损失来选择最优的标记类别。2. 理论基...原创 2018-09-23 19:59:52 · 1130 阅读 · 0 评论 -
《机器学习西瓜书》学习笔记——第六章_支持向量机
1、简介支持向量机(support vector machines)是一种二分类模型,它的目的是寻找一个超平面来对样本进行分割,分割的原则是间隔最大化,最终转化为一个凸二次规划问题来求解。由简至繁的模型包括:当训练样本线性可分时,通过硬间隔最大化,学习一个线性可分支持向量机;当训练样本近似线性可分时,通过软间隔最大化,学习一个线性支持向量机;当训练样本线性不可分时,通过核技巧和软间隔最大化...原创 2018-09-23 22:00:40 · 2836 阅读 · 0 评论 -
CS231n——机器学习算法————KNN
参考李飞飞cs231n2017课程:http://vision.stanford.edu/teaching/cs231n/2017/syllabus.html1. Nearest Neighbor Classifier1.1 计算方法【L1 distance】:逐个比较图像中所有像素的值,计算误差和d1(I1,I2)=∑p∣I1p−I2p∣d_1 (I_1, I_2) = \sum_{p}...原创 2018-09-24 13:36:25 · 299 阅读 · 0 评论 -
交叉熵
这篇文写的挺好的,自己只看一遍记不得,所以只是搬运一下https://blog.csdn.net/tsyccnh/article/details/79163834回顾:线性回归:损失函数(目标函数) 最小二乘法: 矩阵法,数学方法求解,求导逻辑回归:模型参数求解方法:极大似然估计交叉熵交叉熵(cross entropy)是深度学习中常用的一个概念,一般用来求目标与预测值之间的差距。1 ...原创 2018-10-17 16:06:00 · 846 阅读 · 0 评论