博客专栏  >  互联网   >  机器学习与数据挖掘

机器学习与数据挖掘

主要面向数据挖掘的一些机器学习算法 1. 机器学习实战 2. 统计学习方法 分析sklearn中模型的参数,如果能搞懂每个参数的含义,那么算法应该就学得差不多了。

关注
2 已关注
37篇博文
  • 机器学习 - 聚类算法

    聚类算法属于无监督学习范畴,为了便于记忆,简单的将韩家炜《数据挖掘:概念与技术》简单的总结为四种:基于距离,基于密度,基于层次,基于网格。 1. 基于距离 2. 基于密度 3. 基于层次 ...

    昨天 11:27
    124
  • 机器学习 - 线性回归

    1. 普通线性回归 2. ridge 3. lasso

    前天 11:25
    43
  • 机器学习 - 竞赛网站,算法刷题网站

    数据竞赛类网站 Kaggle阿里巴巴天池大数据比赛DataCastleCCF大数据与计算智能大赛Di-Tech算法大赛KDD-CupKDnuggets Competition全国高校云计算应用创新...

    前天 13:35
    208
  • 数据挖掘 - TF-IDF(-)

    这个标题看上去好像很复杂,其实我要谈的是一个很简单的问题。 有一篇很长的文章,我要用计算机提取它的关键词(Automatic Keyphrase extraction),完全不加以人工干预,请问怎样...

    2017-06-11 10:56
    132
  • TF-IDF与余弦相似性的应用(二):找出相似文章

    今天,我们再来研究另一个相关的问题。有些时候,除了找到关键词,我们还希望找到与原文章相似的其他文章。比如,"Google新闻"在主新闻下方,还提供多条相似的新闻。 为了找出相似的文章,需要用到"...

    2017-06-11 10:57
    47
  • 机器学习 - logistic回归

    统计机器学习有两种常见的机器学习算法:logistic回归和SVM,这两种算法都涉及到优化问题,是最重要的两种机器学习算法。

    2017-07-10 21:08
    67
  • 机器学习 - 极大似然估计

    极大似然估计是一种非常著名的参数估计方法。

    2017-07-13 16:46
    28
  • 机器学习 - 集成学习

    1. bagging bagging的核心思想: bootstrap sample自主采样;即从m个样本的数据集中有放回的随机采样n(n ≤ m)个样本;这样重复k次,将得到k个不同的数据集作为训练数...

    4天前 21:19
    4698
  • 机器学习 - 非平衡分类问题

    问题被研究的原因:在实际问题中,大多数分类问题,样本错分会带来不同的代价。 1. 分类性能度量指标 1.1 混淆矩阵 混淆矩阵四个元素: 真正例(true positive),真反例(true...

    4天前 22:14
    63
  • 机器学习 - 分类效果评估

    1. 混淆矩阵(confusion matrix) 2. 精确度(precision) 3. 召回率(recall) 4. 准确率(accuracy) 5. F...

    4天前 22:43
    72
  • 机器学习 - 模型性能改善

    机器学习最有价值(实际应用最广)的部分是预测性建模。也就是在历史数据上进行训练,在新数据上做出预测。  而预测性建模的首要问题是: 如何才能得到更好的结果? 这个备忘单基于本人多年的实践,以及...

    2017-06-30 23:20
    69
  • 机器学习 - 决策树ID3算法

    最近研究树模型,从最简单的决策树开始研究,扼要的说下最简单的ID3算法。 对于机器学习的数据: train_x, train_y, test_x, test_y。当然test_y通常是被预测的值。对于...

    2017-07-01 15:52
    96
  • 机器学习 - 激活函数

    激活函数是用来加入非线性因素的,因为线性模型的表达能力不够。 常用激活函数         激活函数的选择是构建神经网络过程中的重要环节,下面简要介绍常用的激活函数。 (1) 线性函...

    2017-07-02 19:09
    286
  • 机器学习 - 决策树C4.5算法

    基于树的模型最简单的是ID3算法,ID3算法有两大特点: 1)节点分支时,使用信息增益计算最合适的属性作为当前节点的划分属性。 2)只能处理标称性属性。 假设按照属性A对数据集D进行划分,划分之后生成...

    2017-07-06 16:09
    1057
  • 机器学习 - 决策树CART算法

    决策树算法包括ID3,C4.5,CART。这里的CART:classification and regression tree.CART的本质是对特征空间进行二元分割,即CART生成的树是一颗二叉树,...

    2017-07-06 22:15
    67
  • 数据挖掘 - 词集模型 & 词袋模型

    词集模型:单词构成的集合,每个单词只出现一次。 词袋模型:把每一个单词都进行统计,同时计算每个单词出现的次数。

    2017-07-08 09:27
    165
  • 机器学习 - 朴素贝叶斯

    朴素贝叶斯

    2017-07-08 22:11
    68
  • 机器学习 - 贝叶斯学派 & 频率学派

    贝叶斯概率引入了先验来处理概率问题,而频率学派仅仅从数据本身获取信息,不考虑先验和逻辑推理。

    2017-07-08 12:57
    157
  • 机器学习 - 支持向量机(SVM)

    一、Max Margin与支持向量 (1)从线性分类说起 为了更好地引入SVM,我们首先从简单的线性分类说起。首先给定训练集D(假定线性可分,且注意集合元素既可以是单个数又可以是多维向量)和Label...

    2016-12-08 16:59
    174
  • 机器学习 - 线性模型

    一.线性回归—LR 线性回归是一种监督学习下的线性模型,线性回归试图从给定数据集中学习一个线性模型来较好的预测输出(可视为:新来一个不属于D的数据,我们只知道他的x,要求预测y,D如下表示)。 首先我...

    2016-12-12 11:13
    294

img博客搬家
img撰写博客
img专家申请
img意见反馈
img返回顶部