![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
文章平均质量分 86
aa_JamesJones
这个作者很懒,什么都没留下…
展开
-
CapsNet(Capsule Network)——胶囊网络原理
在讲胶囊网络之前,首先我们回顾一下我们熟悉的CNN。CNN做了什么事情呢? 假设这里有一个卷积核(左图),除了曲线轨迹上的值很大,其他的值都是零,所以这个卷积核对旁边这种曲线(右图)就有很高的输出,也就是说对这种曲线有很高的识别,而对其他的曲线类型输出就低。所以比如图像分类中,一旦卷积核检测到了类似于眼睛啊、鼻子啊、嘴巴啊这种特征;从数学角度上说就,相关卷积核对鼻子、眼睛等卷积出来的值很大,那么与...转载 2018-07-10 20:30:14 · 9586 阅读 · 1 评论 -
机器学习之判别式模型和生成式模型
判别式模型与生成式模型的区别产生式模型(Generative Model)与判别式模型(Discrimitive Model)是分类器常遇到的概念,它们的区别在于:对于输入x,类别标签y:产生式模型估计它们的联合概率分布P(x,y)判别式模型估计条件概率分布P(y|x)判别式模型常见的主要有: Logistic Regression SVM Tradi...原创 2019-01-11 11:15:11 · 406 阅读 · 1 评论 -
机器学习算法 -- SVM 详解
一、简介支持向量机(support vector machines)是一种二分类模型,它的目的是寻找一个超平面来对样本进行分割,分割的原则是间隔最大化,最终转化为一个凸二次规划问题来求解。由简至繁的模型包括:当训练样本线性可分时,通过硬间隔最大化,学习一个线性可分支持向量机 当训练样本近似线性可分时,通过软间隔最大化,学习一个线性支持向量机 当训练样本线性不可分时,通过核技巧和软间隔最...原创 2019-01-12 17:12:04 · 1034 阅读 · 0 评论 -
使用sklearn解决机器学习问题
1.读入数据import pandas as pdhousing = pd.read_csv("/Users/ff/PycharmProjects/prac_skl/datasets/housing/housing.csv")2.观察数据# housing.head() 输出前5行数据及表头# housing.info() 输出每个特征的元素总个数及类型信息# housing...原创 2018-11-21 11:30:20 · 522 阅读 · 0 评论 -
Tensorflow 搭建自己的神经网络(一)
视频教程:https://www.bilibili.com/video/av16001891网站教程:https://morvanzhou.github.io/tutorials/machine-learning/tensorflow/神经网络的输入只能是数值型:BP神经网络反向的误差传播过程中有求导运算的,必须是连续可导的函数才能进行此运算,所以输入也必须是数值型的数据(向量或者矩阵)。...原创 2018-11-12 21:17:49 · 1803 阅读 · 0 评论 -
Tensorflow 搭建自己的神经网络(二)
卷积神经网络:import tensorflow as tffrom tensorflow.examples.tutorials.mnist import input_datamnist=input_data.read_data_sets('MNIST_data',one_hot=True)# 定义Weight变量.其中我们使用tf.truncted_normal产生随机变量来进行初...原创 2018-11-14 12:02:58 · 422 阅读 · 0 评论 -
机器学习中的特征工程
特征工程的目的是把原始的数据转化为我们的模型可以使用的数据,其主要包括三个子问题,特征构造、特征提取和特征选择。特征构造一般是在原有特征的基础上做一些“组合”操作,例如对原有特征进行四则运算,从而得到新的特征。特征提取是指使用映射或变换的方法将维数较高的原始特征转换为维数较低的新的特征。特征选择即从原始的特征中挑选出一些最具有代表性,使得模型效果最好的特征。其中特征提取和特征选择最常使用。(1...原创 2018-11-12 14:41:36 · 343 阅读 · 0 评论 -
机器学习中如何处理样本不均衡问题
问题所在:可以永远预测数据多的一方,准确率accuracy仍然会很高。假定样本数目A类比B类多,且严重不平衡:1. A类欠采样(Undersampling)1)随机欠采样2)A类分成若干子类,分别与B类进入ML模型3)基于聚类的A类分割2. B类过采样(Oversampling)可以避免欠采样造成信息丢失,但是随机过采样采取简单复制样本的策略来增加少数类样本,这样容易产...原创 2018-10-06 21:37:08 · 521 阅读 · 0 评论 -
机器学习中的数据标准化和归一化
标准化标准化的方法是只用大数定理将数据转化为一个标准正态分布,标准化公式为: 其中xi是输入向量X的第i个特征,μi是所有xi的平均值,δi是这个特征的标准差。其称为Z-score 标准化(zero-mean normalization),也叫标准差标准化,经过 Z-score 标准化后,各变量将有约一半观察值的数值小于0,另一半观察值的数值大于0,变量的均值为0,标准差为1。如果特征...原创 2018-10-06 19:30:51 · 852 阅读 · 0 评论 -
机器学习分类器的评价指标--混淆矩阵,F1-score,ROC曲线,AUC,KS曲线
1. 混淆矩阵---确定截断点后,评价学习器性能TP(实际为正预测为正),FP(实际为负但预测为正),FN(实际为正但预测为负),TN(实际为负预测为负)通过混淆矩阵我们可以给出各指标的值:查全率(召回率,Recall):样本中的正例有多少被预测准确了,衡量的是查全率,预测对的正例数占真正的正例数的比率:查全率 = TP / (TP+FN)查准率(精准率,Precision...原创 2018-10-03 17:47:08 · 3269 阅读 · 0 评论 -
推荐系统笔记(吴恩达)
问题阐述一.基于内容的推荐算法(为每个向量x增加一个截距特征1)这一种推荐系统是基于内容的, 在这个例子中, 我们使用一个特征向量来表示一部电影. 但是通常情况下, 我们没有这样的向量或者很难得到这样的向量. 这个时候我们就需要不是基于内容的推荐系统.二.协同过滤(Collaborative Filtering)特征学习:该算法能够自行学习所要使用的特征三.协同...原创 2018-09-21 11:18:39 · 471 阅读 · 0 评论 -
L0、L1、L2范数及正则化
范数对于一个向量来说是一个向量的长度(模),对于一个矩阵来说是矩阵中所有向量的长度的求和。在深度学习中,监督类学习问题其实就是在规则化参数同时最小化误差。最小化误差目的是让模型拟合训练数据,而规则化参数的目的是防止模型过分拟合训练数据。参数太多,会导致模型复杂度上升,容易过拟合,也就是训练误差小,测试误差大。因此,我们需要保证模型足够简单,并在此基础上训练误差小,这样训练得到的参数才能保证...原创 2018-10-02 21:55:29 · 810 阅读 · 0 评论 -
机器学习(数据挖掘)总结
一.“没有免费的午餐”(no free lunch,NFL)定理简单易懂的解释:1、一种算法(算法A)在特定数据集上的表现优于另一种算法(算法B)的同时,一定伴随着算法A在另外某一个特定的数据集上有着不如算法B的表现;2、具体问题(机器学习领域内问题)具体分析(具体的机器学习算法选择)。二.模型评估方法:1、留出法:将数据集划分为互斥的训练集和测试集。训练/测试集的划分要尽可能保持...原创 2018-09-26 16:50:40 · 2971 阅读 · 0 评论 -
吴恩达《机器学习》课程笔记归纳(一)-- 初识机器学习
参考地址:https://github.com/fengdu78/Coursera-ML-AndrewNg-Notes1. 什么是机器学习一个年代近一点的定义,由 Tom Mitchell 提出,来自卡内基梅隆大学,Tom 定义的机器学习是,一个好的学习问题定义如下,他说,一个程序被认为能从经验 E 中学习,解决任务 T,达到性能度量值 P,当且仅当,有了经验 E 后,经过 P 评判...原创 2018-09-13 17:17:39 · 686 阅读 · 0 评论 -
白话过拟合、欠拟合以及对应措施
开始我是很难弄懂什么是过拟合,什么是欠拟合以及造成两者的各自原因以及相应的解决办法,学习了一段时间机器学习和深度学习后,分享下自己的观点,方便初学者能很好很形象地理解上面的问题,同时如果有误的地方希望大家在评论区留下你们的砖头,我会进行纠正。无论在机器学习还是深度学习建模当中都可能会遇到两种最常见结果,一种叫过拟合(over-fitting )另外一种叫欠拟合(under-fitting)。首先谈...转载 2018-07-04 12:44:18 · 299 阅读 · 0 评论