机器学习
钟良建呀
计算机视觉
展开
-
模型过拟合与欠拟合
过拟合与欠拟合1.过拟合概念:学习器将样本自身的特征当做所有样本的潜在特征进行学习,称为过拟合表现:训练误差非常小,而泛化误差较大,二者表现出明显差异2.欠拟合概念:学习器对所有训练样本的潜在特征尚未学好,称为欠拟合表现:训练误差与泛化误差都非常大偏差与方差理论对测试样本xxx,yDy_{_D}yD为xxx在训练集D中的标记,ytruey_{true}ytrue为xxx的真实标记,f(x;D)f(x;D)f(x;D)为xxx在训练集DDD上模型的学得的模型输出,模型在训练集DDD上的期原创 2020-07-19 12:27:40 · 121 阅读 · 0 评论 -
机器学习之回归
线性回归逻辑回归原创 2020-07-03 00:07:15 · 113 阅读 · 0 评论 -
梯度下降法
正规方程梯度下降法原理梯度下降法分类(按每次权重更新采用的样本个数分类)随机梯度下降(SGD)mini-batch梯度下降批梯度下降(BGD)梯度下降优化算法原创 2020-07-02 22:01:02 · 175 阅读 · 0 评论 -
分类算法-K近邻算法(KNN)
K近邻算法(KNN)定义:如果一个样本在特征空间中的K个最相似的样本中的大多数属于某个类别,则该样本也属于这个类别。最相似即特征空间中的最近邻。相似度度量:欧式距离:即计算法每个特征之间的距离,计算公式如下:算法直观理解:在已有样本中找到与当前样本距离最近的k个样本,然后以者k个样本的类别进行投票,看当前样本属于哪个类别。算法评价优点:简单,易理解和实现,无需估计参数,无需训练缺点:算法开销随数据量增大而增大,且k值为超参数,需手动调整sklearn k近邻APIfrom sk原创 2020-07-02 09:48:21 · 166 阅读 · 0 评论 -
朴素贝叶斯分类
概率基础样本空间的划分设S为试验E的样本空间,B1,B2,…,Bn为E的一组事件,若称B1,B2,…,Bn为样本空间S的一个划分。事件独立性事件A,B满足则事件A,B相互独立。A,B相互独立与A,B互不相容是两个概念A,B相互独立,条件概率满足条件概率及乘法公式事件A发生条件下事假B发生的概率,称为事件B的条件概率乘法公式全概率公式试验E的样本空间为S,A为E的事件,B1,B2,…,Bn为S的一个划分,则事件A的全概率公式为:贝叶斯公式试验E的样本空原创 2020-07-02 00:54:38 · 136 阅读 · 0 评论 -
模型评估与选择
分类模型评估精度(accuracy)分类正确样本占总样本的比例混淆矩阵在分类任务中,预测结果与真实结果之间存在4中不同的组合,由这4中组合就构成了分类结果的混淆矩阵。对于二分类任务只有一个混淆矩阵,对于多分类任务,需对每个类别分别建立混淆矩阵。准确率(查准率:precision)预测为正例的样本中真实为正例的比例召回率(查全率:recall)真实为正例的样本中预测结果为正例所占的比例(体现了对正样本的区分能力,常用)F1-score与Fβ-scoreF1-score是原创 2020-06-30 22:21:56 · 122 阅读 · 0 评论 -
sklearn数据集与估计器
数据集数据集获取sklearn.datasets # 可用于加载当前流行数据集"""获取小规模数据集,数据包含在datasets模块中可直接加载"""dataset.load_*() # *代表数据集名字"""获取大规模数据集,需要重网上下载"""datasets.fetch_*(data_home=None) # data_home参数指定下载路径"""获取数据返回类型load*和fetch*返回的数据类型为datasets.base.Bunch (字典格式)data属性:特征数据数组,原创 2020-06-27 16:14:47 · 232 阅读 · 0 评论 -
开发流程
机器学习开发整体流程1.数据数据是机器进行学习的根本,获取有效高质量的数据才能够让机器学习出最符合真实场景的模型。2.建立模型明确问题与需求机器学习是针对特定数据的学习,目的是解决特定的问题。因此我们必须明确我们需要解决的问题是什么,属于回归还是分类。这有助于我们进行后续处理。数据基本处理由于各种数据组织类型和组织格式的存在,我们需要对数据一些前期的处理,比如缺失值,表格合并,文本分割等特征工程特征工程,对于机器学习的效果有较大影响。对于不同的数据,特征工程做法各有不同,比如对类别数据原创 2020-06-27 11:29:51 · 86 阅读 · 0 评论 -
特征工程
特征工程什么是特征工程?特征工程将原始数据转换为更好代表预测模型潜在问题的特征的过程特征工程的意义?特征工程的转换结果直接影响模型预测结果特征工程怎么做?特征抽取特征预处理特征降维其他特征抽取特征抽取的目的将非数值数据或类别数据数值化。文本数据特征抽取对文本数据可先进行分词,再以根据需求以下列方法进行(分词是以空格分隔每个词,对于英文文本无需分词,对于中文文本可用分词工具进行分词,如jieba)计数将文本中出现的所有词按出现次数统计,不统计单个字符重要性度量原创 2020-06-26 20:14:04 · 2602 阅读 · 0 评论 -
机器学习数学基础1
机器学习什么是机器学习?设计一个模型,通过已有数据(训练数据)按照一定的方式(性能度量进行学习,通过不断改进调整优化模型参数,并将模型用于预测相关问题机器学习做什么?解决:给定数据的预测问题(数据清洗、特征选择、算法模型设计、参数优化、结果预测)不能解决:大数据存储/并行计算、机器人制作机器学习一般流程数据收集、数据清洗、特征工程、数据建模导数一阶导数曲线斜率,反映曲线变化快慢,一阶导数为零的点且驻点二阶导数斜率变化快慢的反映,表征曲线的凹凸性,二阶导数为零的点为拐点方向导数原创 2020-06-24 14:47:03 · 136 阅读 · 0 评论