《机器学习实战》读书笔记:第一章 机器学习基础

原创 2015年07月08日 12:15:34

监督学习(supervised learning):从输入数据中预测合适的模型,并从中计算出目标变量的结果。
两种类型的目标变量:标称型(分类)和数值型(回归)。
k-近邻算法、决策树、朴素贝叶斯、Logistic回归、支持向量机、AdaBoost
非均衡分类问题:训练样本某个分类的数据多于其他分类的数据

第一章 机器学习基础

机器学习:利用计算机来彰显数据背后的真实含义
人脸识别、手写数字识别、垃圾邮件过滤、亚马逊产品推荐

1.1 何谓机器学习

机器学习:把无序的数据转换成有用的信息,对于任何需要解释并操作数据的领域都有所脾益
特征(属性)、具有相关特征的实例
机器学习的主要任务就是分类
算法训练(学习如何分类),为算法输入大量已分类数据作为算法的训练集。
训练数据和测试数据,算法的实际精准度
知识表示:规则集的形式、概率分布的形式

1.3 机器学习的主要任务

  • 监督学习:分类、回归,算法必须知道预测什么
  • 无监督学习:聚类、密度估计、减少数据特征的维度

1.4 如何选择合适的算法

  • 使用机器学习算法的目的,想要算法完成何种任务
  • 需要分析或收集的数据是什么
  • 不同算法的执行效果,发现最好算法的关键环节是反复试错的迭代过程

1.5 开发机器学习应用程序的步骤

  1. 收集数据:网络爬虫、API、公开可用的数据源
  2. 准备输入数据:Python List
  3. 分析输入数据:人工分析,确保数据集中没有垃圾数据
  4. 训练算法:抽取知识或信息
  5. 测试算法:跟数据的收集和准备有关
  6. 使用算法:转换为应用程序

1.6 Python语言的优势

  1. Python的语法清晰
  2. 易于操作纯文本文件
  3. 使用广泛,存在大量的开发文档

1.6.1 可执行伪代码

高级数据类型:列表、元组、字典、集合、队列
面向对象编程、面向过程编程、函数式编程

1.6.2 Python比较流行

科学函数库:SciPy和NumPy
绘图工具:Matplotlib
交互式shell环境
Pylab模块

1.6.3 Python语言的特色

花费更多的时间处理数据的内在含义

1.6.4 Python语言的缺点

性能问题
先构造可运行的Python程序,然后再逐步使用C代码替换核心代码以改进程序的性能

1.7 NumPy函数库基础

线性代数:为了简化不同的数据点上执行的相同数学运算,将数据表示为矩阵形式,只需要执行简单的矩阵运算而不需要复杂的循环操作
数据类型:矩阵matrix和数组array

randMat = mat(random.rand(4,4))
randMat.I
eye(4)

1.8 本章小结

数据驱动产业

版权声明:本文为博主原创文章,未经博主允许不得转载。

机器学习实战读书笔记-第一章k-近邻算法

才开始看机器学习实战这本书,确实有些晚了,还只能在碎片时间来看,不过确实非常有用 接下来按照书上的例子实际操作了一遍,源代码和数据在书前面的链接里就能找到 我用的python3+win8.1 第...

<机器学习>(周志华)读书笔记 -- 第一章 绪论

1.1  引言 因为人们在生活中通过"经验"可以对所看到,所听到的事物作出判断.机器学习试图研究如何通过计算的手段,利用经验来改善系统自身的性能.这里的"经验",通常是在数据中体现的,机器学习的主要...

读书笔记--机器学习第一章

1.1引言 1.机器学习:研究计算机从数据中产生模型(model)的算法,即“学习算法”。 1.2基本术语 1.记录:可称为示例、样本,是对一个事件或对象(如:一个西瓜)的描述。 2.对象:如...

读书笔记:机器学习实战(3)——章4的朴素贝叶斯分类代码和个人理解与注释

简单介绍下朴素贝叶斯分类原理: 首先要知道贝叶斯公式: 贝叶斯定理是一种用先验概率推断后验概率:在B出现的前提下,A出现的概率等于A出现的前提下B出现的概率乘以A出现的概率再除以B出现的概率。...

《机器学习实战》读书笔记

这个博主的阅读习惯真的挺好,吸取学习。 转载自:http://www.pythoner.com/238.html 1.书籍信息 书名:Machine Learning in Action...
  • memray
  • memray
  • 2013年12月29日 02:05
  • 7043

机器学习实战-第四章贝叶斯分类-代码理解-读书笔记

#coding:utf-8 from numpy import * import pdb def load_data_set(): word_list = [['my', 'dog', '...

机器学习实战---读书笔记: 第5章 基Logistic回归

内容来源于书《机器学习实战》 # *-* coding: utf-8 *-* ''' >---读书笔记: 第5章 Logistic回归 回归:用直线对点进行拟合的过程 利用回归分类主要思想:根据现...

《机器学习实战》读书笔记(一) kNN算法

《机器学习实战》读书笔记(一) kNN算法

《机器学习实战》读书笔记之利用PCA来简化数据

降维技术         第一种降维的方法称为主成分分析(PCA)。在PCA中,数据从原来的坐标系转换到了新的坐标系,新坐标系的选择是由数据本身决定的。第一个新坐标轴选择的是原始数据中方差最大的方向,...

机器学习实战-第三章决策树-代码理解-读书笔记

#coding:utf-8 from math import log import operator #计算dataSet的熵 def calcShannonEnt(dataSet): nu...
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:《机器学习实战》读书笔记:第一章 机器学习基础
举报原因:
原因补充:

(最多只允许输入30个字)