《机器学习实战》读书笔记：第一章机器学习基础

最新推荐文章于 2024-09-22 23:33:44 发布

funnything2014

最新推荐文章于 2024-09-22 23:33:44 发布

阅读量871

点赞数

分类专栏： Machine Learning 文章标签：读书笔记机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/funnything2014/article/details/46790861

版权

Machine Learning 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

监督学习（supervised learning）：从输入数据中预测合适的模型，并从中计算出目标变量的结果。
两种类型的目标变量：标称型（分类）和数值型（回归）。
k-近邻算法、决策树、朴素贝叶斯、Logistic回归、支持向量机、AdaBoost
非均衡分类问题：训练样本某个分类的数据多于其他分类的数据

第一章机器学习基础

机器学习：利用计算机来彰显数据背后的真实含义
人脸识别、手写数字识别、垃圾邮件过滤、亚马逊产品推荐

1.1 何谓机器学习

机器学习：把无序的数据转换成有用的信息，对于任何需要解释并操作数据的领域都有所脾益
特征（属性）、具有相关特征的实例
机器学习的主要任务就是分类
算法训练（学习如何分类），为算法输入大量已分类数据作为算法的训练集。
训练数据和测试数据，算法的实际精准度
知识表示：规则集的形式、概率分布的形式

1.3 机器学习的主要任务

监督学习：分类、回归，算法必须知道预测什么
无监督学习：聚类、密度估计、减少数据特征的维度

1.4 如何选择合适的算法

使用机器学习算法的目的，想要算法完成何种任务
需要分析或收集的数据是什么
不同算法的执行效果，发现最好算法的关键环节是反复试错的迭代过程

1.5 开发机器学习应用程序的步骤

收集数据：网络爬虫、API、公开可用的数据源
准备输入数据：Python List
分析输入数据：人工分析，确保数据集中没有垃圾数据
训练算法：抽取知识或信息
测试算法：跟数据的收集和准备有关
使用算法：转换为应用程序

1.6 Python语言的优势

Python的语法清晰
易于操作纯文本文件
使用广泛，存在大量的开发文档

1.6.1 可执行伪代码

高级数据类型：列表、元组、字典、集合、队列
面向对象编程、面向过程编程、函数式编程

1.6.2 Python比较流行

科学函数库：SciPy和NumPy
绘图工具：Matplotlib
交互式shell环境
Pylab模块

1.6.3 Python语言的特色

花费更多的时间处理数据的内在含义

1.6.4 Python语言的缺点

性能问题
先构造可运行的Python程序，然后再逐步使用C代码替换核心代码以改进程序的性能

1.7 NumPy函数库基础

线性代数：为了简化不同的数据点上执行的相同数学运算，将数据表示为矩阵形式，只需要执行简单的矩阵运算而不需要复杂的循环操作
数据类型：矩阵matrix和数组array

randMat = mat(random.rand(4,4))
randMat.I
eye(4)

1.8 本章小结

数据驱动产业

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。