《机器学习实战》读书笔记:第一章 机器学习基础

原创 2015年07月08日 12:15:34

监督学习(supervised learning):从输入数据中预测合适的模型,并从中计算出目标变量的结果。
两种类型的目标变量:标称型(分类)和数值型(回归)。
k-近邻算法、决策树、朴素贝叶斯、Logistic回归、支持向量机、AdaBoost
非均衡分类问题:训练样本某个分类的数据多于其他分类的数据

第一章 机器学习基础

机器学习:利用计算机来彰显数据背后的真实含义
人脸识别、手写数字识别、垃圾邮件过滤、亚马逊产品推荐

1.1 何谓机器学习

机器学习:把无序的数据转换成有用的信息,对于任何需要解释并操作数据的领域都有所脾益
特征(属性)、具有相关特征的实例
机器学习的主要任务就是分类
算法训练(学习如何分类),为算法输入大量已分类数据作为算法的训练集。
训练数据和测试数据,算法的实际精准度
知识表示:规则集的形式、概率分布的形式

1.3 机器学习的主要任务

  • 监督学习:分类、回归,算法必须知道预测什么
  • 无监督学习:聚类、密度估计、减少数据特征的维度

1.4 如何选择合适的算法

  • 使用机器学习算法的目的,想要算法完成何种任务
  • 需要分析或收集的数据是什么
  • 不同算法的执行效果,发现最好算法的关键环节是反复试错的迭代过程

1.5 开发机器学习应用程序的步骤

  1. 收集数据:网络爬虫、API、公开可用的数据源
  2. 准备输入数据:Python List
  3. 分析输入数据:人工分析,确保数据集中没有垃圾数据
  4. 训练算法:抽取知识或信息
  5. 测试算法:跟数据的收集和准备有关
  6. 使用算法:转换为应用程序

1.6 Python语言的优势

  1. Python的语法清晰
  2. 易于操作纯文本文件
  3. 使用广泛,存在大量的开发文档

1.6.1 可执行伪代码

高级数据类型:列表、元组、字典、集合、队列
面向对象编程、面向过程编程、函数式编程

1.6.2 Python比较流行

科学函数库:SciPy和NumPy
绘图工具:Matplotlib
交互式shell环境
Pylab模块

1.6.3 Python语言的特色

花费更多的时间处理数据的内在含义

1.6.4 Python语言的缺点

性能问题
先构造可运行的Python程序,然后再逐步使用C代码替换核心代码以改进程序的性能

1.7 NumPy函数库基础

线性代数:为了简化不同的数据点上执行的相同数学运算,将数据表示为矩阵形式,只需要执行简单的矩阵运算而不需要复杂的循环操作
数据类型:矩阵matrix和数组array

randMat = mat(random.rand(4,4))
randMat.I
eye(4)

1.8 本章小结

数据驱动产业

版权声明:本文为博主原创文章,未经博主允许不得转载。

相关文章推荐

机器学习实战读书笔记-第一章k-近邻算法

才开始看机器学习实战这本书,确实有些晚了,还只能在碎片时间来看,不过确实非常有用 接下来按照书上的例子实际操作了一遍,源代码和数据在书前面的链接里就能找到 我用的python3+win8.1 第...

<机器学习>(周志华)读书笔记 -- 第一章 绪论

1.1  引言 因为人们在生活中通过"经验"可以对所看到,所听到的事物作出判断.机器学习试图研究如何通过计算的手段,利用经验来改善系统自身的性能.这里的"经验",通常是在数据中体现的,机器学习的主要...

【读书笔记】机器学习实战 第7章 7.7节非均衡分类问题

机器学习实战 7.7节 非均衡分类问题分类性能指标: 错误率 指错分样本的比例,这样的度量掩盖了样例是如何被错分的事实。有一个普遍适用的称为混淆矩阵- 真实(+1)真实(−1)预测(+1)真正例...

【读书笔记】机器学习实战-决策树(2)

这里是接着上一篇决策树算法介绍来的。 之前已经学习过决策树的整个方法,对它构造的过程有了比较清楚的认识。这一次的读书笔记就主要关注决策树的应用和用matplotlib来画出一棵决策树。 绘制决...
  • iboxty
  • iboxty
  • 2015-04-16 23:53
  • 1065

【读书笔记】机器学习实战-kNN(1)

k临近算法(kNN)采用测量不同特征值之间的距离方法进行分类,也是一种非常直观的方法。本文主要记录了使用kNN算法改进约会网站的例子。任务一:分类算法classify0 就是使用距离公式计算特征值之...
  • iboxty
  • iboxty
  • 2015-04-10 17:06
  • 3685

《机器学习实战》读书笔记4:决策树源码分析

本文对《机器学习实战》第三章——决策树的源码进行了全面的分析和解释。由于个人觉得作者的代码变量命名具有一定的迷惑性,使读者容易混淆,所以部分代码可能作了修改。本文只包含了构建决策树、用决策树分类、序列...

《机器学习实战》读书笔记1:NumPy的安装及简单用法

我以前学习 machine learning,个人觉得应该算是小打小闹,只是简单地了解了一下基本原理,然后改改现成的 matlab 代码。《机器学习实战》这本书已经入差不多两个多月了,但是因为期末考试...

读书笔记:机器学习实战(2)——章3的决策树代码和个人理解与注释

首先是对于决策树的个人理解: 通过寻找最大信息增益(或最小信息熵)的分类特征,从部分已知类别的数据中提取分类规则的一种分类方法。 信息熵: 其中,log底数为2,额,好吧,图片我从百度截的。...

读书笔记:机器学习实战(1)——章2的knn代码和个人改进与注释

最近在学习《机器学习实战》一书,受益匪浅,之前还看过本书《机器学习系统设计》也很不错,个人觉得前者更注重算法学习和白盒代码优化(原理理解),而后者更注重skit-learn 等工具包的黑盒使用,更重要...

【读书笔记】机器学习实战 5.2节 logistics回归

机器学习实战 5.2节 logistics回归 梯度上升
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:深度学习:神经网络中的前向传播和反向传播算法推导
举报原因:
原因补充:

(最多只允许输入30个字)