博客专栏  >  云计算/大数据   >  python机器学习

python机器学习

总结和分析自己在学习python机器学习这本书中的心得和经验。

关注
5 已关注
41篇博文
  • 使用奇异值分解提高协同过滤的推荐效果

    在上一篇文章中,介绍过了矩阵分解和奇异值分解,这篇文章主要介绍奇异值分解的应用。通过SVD我们能够用小得多的数据来表示原始的样本数据,通过SVD可以去除噪声和冗余的信息。这篇文章主要介绍:1、SVD的...

    2018-05-09 22:45
    45
  • 基于协同过滤的推荐系统

    这篇文章主要介绍一种协同过滤的推荐的算法,主要的内容包括:1、相似度的计算2、基于用户的协同过滤3、基于项目的协同过滤4、基于内容的过滤算法5、混合推荐系统推荐系统在现在的生活中随处可见,淘宝天猫的商...

    2018-05-07 21:39
    93
  • 特征分解和奇异值分解

    特征分解和奇异值分解在机器学习的应用中经常出现,在学习线性代数的时候也学习过。线性代数学完之后,之后去按照步骤去求解特征值和特征向量,也没搞明白特征值和特征向量究竟有什么作用。这篇文章的主要内容包括:...

    2018-05-05 19:18
    41
  • 聚类算法之DBSCAN划分高密度区域

    关于聚类算法的前面两篇文章,已经介绍过了常用的原型聚类算法k-measn算法和层次聚类中的凝聚算法,这篇文章介绍一些密度聚类算法DBSCAN。k-means算法需要事先指定簇的个数,而凝聚不需要指定簇...

    2018-05-01 17:46
    57
  • 聚类算法之层次聚类

    一、原型聚类和层次聚类原型聚类也称基于原型的聚类(prototype-based clustering),这类算法假设聚类结构能够通过一组原型刻画,先对原型进行初始化,然后对原型进行迭代更新求解。采用...

    2018-04-30 01:13
    92
  • K-Means算法详细介绍(SSE、轮廓分析)

    在前面我们介绍过了很多的监督学习算法,分类和回归。这篇文章主要介绍无监督算法,通过聚类分析来处理无类标数据。我们事先并不知道数据的正确结果(类标),通过聚类算法来发现和挖掘数据本身的结构信息,对数据进...

    2018-04-29 10:29
    275
  • 回归预测分析(RANSAC、多项式回归、残差图、随机森林)

    在本篇文章中,主要是介绍利用波士顿房价数据来掌握回归预测分析的一些方法。通过本篇文章你可以学习到:1、可视化数据集的重要特征2、估计回归模型的系数3、使用RANSAC拟合高鲁棒性回归模型4、如何来评价...

    2018-04-26 22:05
    218
  • 使用flask将机器学习模型嵌入到web系统中

    在这篇文章中,主要介绍如何将一个机器学习的模型嵌入到web系统中,这篇文章的主要内容包括:1、利用flask构建一个简单的web2、将机器学习模型嵌入到web系统中3、根据用户的反馈来更新模型主要包括...

    2018-04-22 17:24
    380
  • 在线算法外存学习处理大数据集

    在上一篇文章中,使用了logistic回归来对电影评论进行分类,消耗了2到3个小时,在使用网格搜索对50000条电影评论构建特征向量的时候计算成本是非常大的。在实际应用中,可能会遇见更大的数据集,如果...

    2018-04-19 21:51
    83
  • logistic实现评论的分类(四)

    在之前我们介绍了对电影评论的预处理的方法,分词、提取词干、去除停用词、提取句子的TF-IDF特征向量。在这篇文章中,我们将介绍使用评论的TF-IDF特征向量,使用logistic回归实现对评论的分类,...

    2018-04-19 21:33
    39
  • 情感分析之词袋模型TF-IDF算法(三)

    在这篇文章中,主要介绍的内容有:1、将单词转换为特征向量2、TF-IDF计算单词关联度在之前的文章中,我们已经介绍过一些文本的预处理和分词。这篇文章中,主要介绍如何将单词等分类数据转成为数值格式,以方...

    2018-04-14 00:28
    214
  • 对电影评论做情感分析之词干提取和停用词的移除(二)

    这篇文章主要介绍如何将文本转换为特征向量前的一些准备工作,主要内容包括:1、清洗文本数据2、标记文档3、词袋模型一、清洗文本数据清洗文本需要将文本中所包含的一些不必要的字符删除。1、删除不必要的字符p...

    2018-04-09 21:50
    94
  • 对电影评论进行情感分析之文本数据的准备(一)

    通过电影评论来做情感分析,主要包括下面几个主要内容:1、准备文本数据2、基于文本文档来构建特征向量3、训练机器学习模型来区分电影评论的正面评论和负面评论4、使用外存学习和在线学习算法来处理大数据在本篇...

    2018-04-08 22:30
    126
  • AdaBoost算法详细介绍

    一、Boosting算法Boosting集成分类器包含多个非常简单的成员分类器,这些成员分类器的性能仅好于随机猜想,常被称为弱学习机。典型的弱学习机的例子就是单层决策树。Boosting算法主要针对难...

    2018-04-06 14:11
    108
  • bagging通过bootstrap构建集成分类器

    集成学习是将不同分类器组合成为一个元分类器,元分类器与其包含的当个分类器相比,元分类器具有更好的泛化性能。一、bagging集成分类器bagging没有使用相同的训练集拟合集成分类器中的单个成员分类器...

    2018-04-02 23:03
    77
  • 集成学习之多数投票预测

    一、集成学习集成方法(ensemble method)是指,通过将不同的分类器组合成为一个元分类器,元分类器与包含的单个分类器相比,元分类器具有更好的泛化性能。常用的集成方法有多数投票(majorit...

    2018-04-01 22:54
    250
  • 评价分类模型的性能指标

    当一个模型构建完成之后,我们可以通过几个不同的性能指标来衡量分类模型的相关性能,常用的分类性能指标有准确率(precision)、召回率(recall)和F1分数(F1-score)。一、混淆矩阵混淆...

    2018-03-28 22:52
    66
  • 通过网格搜索和嵌套交叉验证寻找机器学习模型的最优参数

    在机器学习的模型中,通常有两类参数,第一类是通过训练数据学习得到的参数,也就是模型的系数,如回归模型中的权重系数,第二类是模型算法中需要进行设置和优化的超参,如logistic回归中的正则化系数和决策...

    2018-03-25 22:56
    325
  • 通过验证曲线来判断机器学习模型的性能

    当,一个机器学习的模型训练完成之后,我们应该如何来判断模型的性能。在上一篇文章中,我们使用了交叉验证的方法来估计模型的平均性能,这篇文章中,将介绍通过学习曲线来判断模型的偏差和方差问题,通过验证曲线来...

    2018-03-25 17:36
    219
  • 交叉验证评估模型性能

    在构建一个机器学习模型之后,我们需要对模型的性能进行评估。如果一个模型过于简单,就会导致欠拟合(高偏差)问题,如果模型过于复杂,就会导致过拟合(高方差)问题。为了使模型能够在欠拟合和过拟合之间找到一个...

    2018-03-21 22:46
    310

img博客搬家
img撰写博客
img发布 Chat
img专家申请
img意见反馈
img返回顶部