机器学习实战——学习笔记(一)

第一章——机器学习基础

在这里插入图片描述

数据挖掘十大算法

C4.5决策树、K-均值(K-mean)、支持向量机(SVM)、Apriori、最大期望算法(EM)、PageRank算法、AdaBoost算法、k-近邻算法(kNN)、朴素贝叶斯算法(NB)和分类回归树(CART)算法

本书未包含PageRank算法、最大期望算法。

何为机器学习

机器学习就是把无序的数据转化成有用的信息,需要多学科的专业知识,用到了统计学知识。移动计算和传感器产生的海量数据意味着未来我们将面临着越来越多的数据,如何从海量数据中抽取到有价值的信息将是一个非常重要的课题。

机器学习的主要任务

为了测试机器学习算法的效果,通常使用两套独立的样本集:训练数据和测试数据。

  • 监督学习(知道目标变量的分类信息)

    • 分类
    • 回归
  • 无监督学习(无类别信息也无给定目标值)

    • 聚类——将数据集合分成由类似的对象组成的多个类
    • 密度估计——寻找描述数据统计值

在这里插入图片描述

选择合适的算法

机器学算法的目的

  1. 预测目标变量的值——监督学习算法

    • 离散型——分类器算法
    • 连续型——回归算法
  2. 无需预测变量值——无监督学习算法

    • 将数据划分为离散的组——聚类算法
    • 估计数据与每个分组的相似程度——密度估计算法

数据问题

主要考虑点如下:

  • 特征值是离散变量还是连续变量
  • 特征值中是否存在缺失的值
  • 何种原因造成缺失值
  • 数据中是否存在异常值
  • 某个特征发生的频率如何
开发机器学习应用程序的步骤

本书选用python语言

  1. 收集数据——爬虫,API,传感器,公开可用的数据源…
  2. 准备输入数据——格式
  3. 分析输入数据——空值,异常值,展示数据
  4. 训练算法(核心)
  5. 测试算法(核心)
  6. 使用算法
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值