Machine Learning in Action 读书笔记---第1章 机器学习基础

本文是《Machine Learning in Action》的读书笔记,介绍了机器学习的基础知识,包括机器学习的定义、关键术语、主要任务、算法选择原则及开发步骤。文中提及了监督学习与无监督学习的应用,如k-近邻、朴素贝叶斯、支持向量机等,并强调了选择合适算法的重要性及数据预处理的必要性。
摘要由CSDN通过智能技术生成

Machine Learning in Action 读书笔记

第1章 机器学习基础



一、可谓机器学习?

    利用计算机来彰显数据背后的真实含义,这才是机器学习的真实含义。随着技术指数级增长,我们不仅需要使用更好的工具解析当前的数据,而且还要为将来可能产生的数据做好充分的准备。在社会科学领域,正确率达60%以上的分析被认为是非常成功的。

二、机器学习关键术语

  • 知识表示:某些算法可以产生很容易理解的知识表示,而某些算法的知识表示也许只能为计算机所理解,采用何种方式表示只是就显得非常重要了。
  • 聚类:在无监督学习中,将数据集合分成由类似的对象组成的多个类的过程被成为聚类。
  • 密度估计:在无监督学习中,将寻找描述数据统计值的过程成为密度估计。

三、机器学习的主要任务

(1)监督学习的用途:

  • k-近邻算法:线性回归
  • 朴素贝叶斯算法:局部加权线性回归
  • 支持向量机:Ridge回归
  • 决策树:Lasso最小回归系数估计

(2)无监督学习的用途:

  • k-均值:最大期望算法
  • DBSCAN:Parzen窗设计

四、如何选择合适的算法

(1)考虑使用机器学习算法的目的

  • 如果不想预测目标变量的值,则可以选择无监督学习算法。
  • 进一步分析是否需要将数据划分为离散的组。
    • 如果这是唯一的要求,则使用聚类算法;
    • 如果还需要估计数据与每个分组的相似程度,则需要使用密度估计算法。

(2)充分了解数据

  • 特征值是离散型变量还是连续型变量
  • 特征值中是否存在缺失的值
  • 何种原因造成缺失值
  • 数据中是否存在异常值
  • 某个特征发生的频率如何(是否罕见得如同海底捞针)

一般说来发现最好算法的关键环节是反复试错的迭代过程。

五、开发机器学习应用程序的步骤

  1. 收集数据
  2. 准备输入数据
  3. 分析输入数据(这一步的主要作用是确保数据集中没有垃圾数据)
  4. 训练算法(如果使用无监督学习算法,由于不存在目标变量值,故而也不需要训练算法)
  5. 测试算法(对于监督学习,必须已知用于评估算法的目标变量值;对于无监督学习,也必须用其他的评测手段来检测算法的成功率)
  6. 使用算法
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值