机器学习学习笔记
文章平均质量分 78
大美mixer
Github>>https://github.com/lmh760008522
简书>>https://www.jianshu.com/u/84f0ebbbac87
展开
-
《机器学习实战》第五章 Logistic回归
优点:计算代价不高,易于理解和实现。 缺点:容易欠拟合,分类精度可能不高。 适用数据类型:数值型和标称型数据。主要思想: 根据现有数据对分类边界建立回归公式,以此进行分类。一般过程:(1)收集数据:采用任意方法收集数据。(2)准备数据:由于需要进行距离计算,因此要求数据类型为数值型。另外,结构化数据格式则最佳。(3)分析数据:采用任意方法对数据进行分析。(4)训练算法:大部分时间将用...原创 2018-12-01 10:56:00 · 257 阅读 · 0 评论 -
机器学习-Sklearn
一下子看完这个网址不用跳跳跳点点点系列学习网址:机器学习 (Machine Learning) - Sklearn | 莫烦Python通常来说, 机器学习的方法包括:监督学习 supervised learning;非监督学习 unsupervised learning;半监督学习 semi-supervised learning;强化学习 reinforcement l...原创 2018-11-18 14:35:00 · 354 阅读 · 1 评论 -
机器学习-Tensorflow
一下子看完这个网址不用跳跳跳点点点系列学习链接:莫烦tensorflow为什么选Tensorflow什么是TensorFlow?TensorFlow是Google开发的一款神经网络的Python外部的结构包, 也是一个采用数据流图来进行数值计算的开源软件库.TensorFlow 让我们可以先绘制计算结构图, 也可以称是一系列可人机交互的计算操作, 然后把编辑好的Python文件 转换成...原创 2018-11-18 15:07:00 · 175 阅读 · 1 评论 -
《机器学习实战》第一章 机器学习基础
该系列:整合了《机器学习实战》中的要点,适合理解概念之后当作笔记复习或者只喜欢看概念不喜欢看讲解的胖友。 将代码改成了python3版本 将单独成段的代码讲解以注释的方式与代码融合,方便阅读。机器学习基础概念训练集是用于训练机器学习算法的数据样本集合。 目标变量是机器学习算法的预测结果,在分类算法中目标变量的类型通常是标称型的,而在回归算法中通常是连续型的。 一般过程: 为了测试...原创 2018-11-25 19:57:00 · 173 阅读 · 1 评论 -
《机器学习实战》第二章 k-近邻算法
K-近邻算法概述描述: 用测量不同特征值之间的距离方法进行分类。 优点: 精度高、对异常值不敏感、无数据输入假定。 缺点: 计算复杂度高、空间复杂度高。 适用数据范围: 数值型和标称型。 工作原理: 已知样本集中每一数据与所属分类的对应关系,将新数据与样本集中数据对应的特征进行比较,将前k个与最相似的样本集中数据的标签提取,选择其中出现次数最多的分类,作为新数据的分类。 注: 一般来...原创 2018-11-29 20:17:00 · 116 阅读 · 0 评论 -
《机器学习实战》第三章 决策树
k-近邻算法可以完成很多分类任务,但是它最大的缺点就是无法给出数据的内在含义,决策树的主要优势就在于数据形式非常容易理解。 决策树很多任务都是为了数据中所蕴含的知识信息,因此决策树可以使用不熟悉的数据集合,并从中提取出一系列规则,机器学习算法最终将使用这些机器从数据集中创造的规则。优点: 计算复杂度不高,输出结果易于理解,对中间值的缺失不敏感,可以处理不相关特征数据。 缺点: 可能会产生过度...原创 2018-11-29 22:22:00 · 284 阅读 · 0 评论 -
《机器学习实战》第四章 朴素贝叶斯
优点:在数据较少的情况下仍然有效,可以处理多类别问题。 缺点:对于输入数据的准备方式较为敏感。 适用数据类型:标称型数据。一般过程:⑴收集数据:可以使用任何方法。本章使用尺88源。(2)准备数据:需要数值型或者布尔型数据。(3)分析数据:有大量特征时,绘制特征作用不大,此时使用直方图效果更好。(4)训练算法:计算不同的独立特征的条件概率。(5)测试算法:计算错误率。(6)使用算法...原创 2018-11-30 20:52:00 · 211 阅读 · 0 评论