机器学习(ML)
机器学习笔记,成长记录。
梅森上校
十多年软件行业从业经验,热爱技术,精于项目管理和研发团队建设。闲暇至于,喜欢欣赏音乐,看看电影;摆弄摆弄茶道,让身心得以调整和休息。
展开
-
数据挖掘(Data Mining)和数据分析(Data Analysis)的对比
数据挖掘和数据分析现在信息世界中,每天生成的数据量呈指数级增长。获取这些数据的过程并不复杂,因为可以使用的方法很多。然而,从这些数据中获取有意义的信息是非常复杂和耗时的。收集的数据通常存储在数据仓库中,数据仓库是保存从各种来源收集的数据的地方。其中一些来源包括公司数据库、外部来源的数据和内部系统的汇总信息。对这些数据的分析需要统计分析、简单的查询和报表、更复杂的多维分析和数据挖掘。...原创 2020-05-03 12:39:34 · 3417 阅读 · 0 评论 -
统计学、统计学习和统计推断之间的关系
统计学、统计学习和统计推断之间的关系什么是统计学?百度百科的定义:统计学是应用数学的一个分支,主要通过利用概率论建立数学模型,收集所观察系统的数据,进行量化的分析、总结,并进而进行推断和预测,为相关决策提供依据和参考。它被广泛的应用在各门学科之上,从物理和社会科学到人文科学,甚至被用来工商业及政府的情报决策之上。统计学主要又分为描述统计学和推断统计学。给定一组数据,统计学可以摘要并...原创 2020-05-03 12:21:27 · 3376 阅读 · 0 评论 -
机器学习(Machine Learning)和传统的数据统计分析(Data Statistics)有什么区别?
机器学习(Machine Learning)和传统的数据统计(Data Statistics)有什么区别?机器学习强调预测 通过预测性能评估结果 关注过度拟合而不是模型本身的复杂性 注重表现 通过在新数据集上的性能获得可概括性 通常,没有指定超人口模型 对性能和健壮性的关注传统统计分析强调超总体推断 关注a-先验假设 更简单的模型优于复杂的模型(简约),即使更复杂的模...原创 2020-05-03 11:50:17 · 2089 阅读 · 0 评论 -
[机器学习笔记] 机器学习常见算法总结(更新中)
机器学习常见算法总结机器学习常见算法 分类 小分类 算法 计算复杂性 解释性 缺失值影响 监督学习 Supervised Learning 回归 Regression 线性回归 Linear Regression 低 容易 敏感 弹性网络...原创 2020-04-08 23:40:49 · 782 阅读 · 0 评论 -
[数据分析学习笔记] 数据预处理
数据分析学习笔记 —— 数据预处理数据预处理一方面是要提高数据的质量,另一方面是要让数据更好地适应特定的挖掘技术或工具。数据预处理的主要内容包括:数据清洗、数据集成、数据变换和数据规约。知识点总结如下图所示:数据预处理的主要过程数据清洗:主要是删除原始数据集中的无关数据、重复数据,平滑噪声数据,筛选掉与挖掘主题无关的数据,处理缺失值、异常值等。数据集成:将多个数据源合...原创 2020-04-07 22:30:50 · 1866 阅读 · 0 评论 -
[机器学习笔记] 机器学习知识要点汇总
机器学习知识要点汇总1. 机器学习的常见分类和常用的算法有哪些?将机器学习分为四种,分别是监督学习、无监督学习、半监督学习和增强学习。(1)监督学习(Supervised Learning):是指每个进入算法的训练数据样本都有对应的期望值也就是目标值,进行机器学习的过程实际上就是特征值和目标队列映射的过程;通过过往的一些数据的特征以及最终结果来进行训练的方式就是监督学习法;...原创 2020-04-06 22:45:11 · 6656 阅读 · 0 评论 -
[数据分析学习笔记] 数据探索分析(EDA)需要了解的统计学基础
Exploratory Data Analysis(EDA)Exploratory Data Analysis(EDA)是指对已有数据在尽量少的先验假设下通过作图、制表、方程拟合、计算特征量等手段探索数据的结构和规律的一种数据分析方法,该方法在上世纪70年代由美国统计学家J.K.Tukey提出。传统的统计分析方法常常先假设数据符合一种统计模型,然后依据数据样本来估计模型的一些参数及统计量,...原创 2020-04-05 22:36:44 · 5310 阅读 · 1 评论 -
[机器学习笔记] 用Python分析:红葡萄酒质量分析(数据探索)
用Python分析:红葡萄酒质量分析(数据探索)数据集:winemag-data_first150k.csv先来导入数据import numpy as npimport pandas as pdimport seaborn as snsimport matplotlib.pyplot as pltimport statsmodels.api as smimport stat...原创 2020-04-05 03:10:08 · 12394 阅读 · 4 评论 -
[机器学习笔记] 数据标准化方法
数据标准化方法数据标准化在数据分析之前,我们通常需要先将数据标准化(Normalization),利用标准化后的数据进行数据分析。数据标准化也就是统计数据的指数化。数据标准化处理主要包括数据同趋化处理和无量纲化处理两个方面。目前数据标准化方法有多种,归结起来可以分为直线型方法(如极值法、标准差法)、折线型方法(如三折线法)、曲线型方法(如半正态性分布)。不同的标准化方法,对系统的评价结...原创 2020-04-04 17:13:09 · 1148 阅读 · 0 评论 -
ModuleNotFoundError: No module named 'graphviz' 的解决方法
ModuleNotFoundError: No module named 'graphviz' 的解决方法在 Jupyter 中执行下面的代码时,报错,提示:ModuleNotFoundError: No module named 'graphviz'# 导入需要的算法库和模块from sklearn import treefrom sklearn.datasets import ...原创 2020-04-04 14:55:49 · 22641 阅读 · 5 评论 -
[机器学习笔记] 用Python分析 TED演讲数据(更新中)
用Python分析 TED演讲数据首先准备TED演讲数据集,TED演讲数据集和信息可以从下面的资源获得:https://www.datafountain.cn/datasets/11该数据集包含2个文件:ted_main.csv 包含演讲主要信息,包括演讲标题,发言人,演讲内容,观看次数,评论数量,演讲评分等。 transcripts.csv 包含演讲链接和官方英文字幕。1...原创 2020-04-03 15:34:42 · 1587 阅读 · 0 评论 -
[机器学习笔记] (转载学习)完整机器学习项目的工作流程
完整机器学习项目的工作流程博客原文:https://ask.julyedu.com/question/70131 抽象成数学问题明确问题是进行机器学习的第一步。机器学习的训练过程通常都是一件非常耗时的事情,胡乱尝试时间成本是非常高的。这里的抽象成数学问题,指的我们明确我们可以获得什么样的数据,目标是一个分类还是回归或者是聚类的问题,如果都不是的话,如果划归为其中的某类问题。2 ...原创 2020-04-02 00:45:02 · 225 阅读 · 0 评论 -
[机器学习笔记] 用Python进行航空公司客户价值分析笔记
用Python进行航空公司客户价值分析(数据分析)学习资料:图书:《Python数据分析与挖掘实战》(机械工业出版社)第7章博文:https://blog.csdn.net/a857553315/article/details/79177524目标书中介绍了背景,要求根据背景通过数据挖掘实现如下目标:借助航空公司客户数据,对客户进行分类 对不同的客户类别进行特征分析,比较...原创 2020-04-01 23:31:48 · 2148 阅读 · 0 评论 -
[机器学习笔记] Python数据分析:用户消费行为(持续更新)
Python数据分析:用户消费行为(持续更新)红酒品鉴和用户消费行为分析是我学习Python数据分析入门的两个案例,记录一下。网络上关于这两个案例的介绍非常多,但是我在学习过程中,发现有很多文章的逻辑不是很清晰,代码也调试不同。所以,还是想把自己的调试代码写出来。参考博文:http://www.360doc.com/content/17/0717/17/16619343_672...原创 2020-04-01 00:11:31 · 2653 阅读 · 0 评论 -
[机器学习笔记] 常用的分类与预测算法
常用的分类与预测算法算法名称 算法描述 回归分析 回归分析是确定预测属性(数值型)与其它变量间相互依赖的定量关系最常用的统计学方法。 包括:线性回归、非线性回归、Logistic回归、岭回归、主成分回归、偏最小二乘回归等模型。 决策树 决策树采用自顶向下的递归方式,在内部节点进行属性值的比较,并根据不同的属性值从该节点向下分支,最终得到的叶子节...原创 2020-03-30 00:37:50 · 2828 阅读 · 0 评论 -
[机器学习] Python代码来构建一颗决策树(Decision Tree)的案例
Python代码来构建一颗决策树(Decision Tree)的案例用Python代码来构建一颗决策树(Decision)工具Python+Jupyter Graphviz 2.38 (Graphviz是一个开源的图形可视化软件)Graphviz的下载地址:http://www.graphviz.org/download/Graphviz是一个开源的图形可视化软件。图形可视...原创 2020-03-29 22:17:12 · 1070 阅读 · 0 评论 -
[机器学习] ModuleNotFoundError: No module named 'prettytable' 错误的解决
ModuleNotFoundError: No module named 'prettytable' 错误的解决PrettyTable 是python中的一个第三方库,可用来生成美观的ASCII格式的表格。遇到ModuleNotFoundError: No module named 'prettytable' 错误的解决方法如下:在CMD窗口输入:pip install Pret...原创 2020-03-29 02:23:38 · 4951 阅读 · 2 评论 -
[机器学习] ModuleNotFoundError: No module named 'pydotplus' 错误的解决方法
ModuleNotFoundError: No module named 'pydotplus' 错误的解决方法在使用Anaconda 调试程序时,遇到了如下错误:ModuleNotFoundError: No module named 'pydotplus',记录一下解决方法。【开始菜单】-> Anaconda3(64-bit),打开CMD窗口:1. 执行:conda in...原创 2020-03-29 02:15:49 · 11359 阅读 · 3 评论 -
[机器学习笔记] 常用关联规则算法
机器学习中常用关联规则算法关联规则算法是一种基于规则的机器学习算法,该算法可以在大数据中发现彼此之间的关系。它的目的是:利用一些度量指标来分辨数据库中存在的强规则。也即是说关联规则挖掘是用于知识发现,而非预测,所以是属于无监督的机器学习方法。算法名称 算法描述 Apriori 关联规则最常用也是最经典的挖掘频繁项集的算法 其核心思想是通过连接产生候选项及...原创 2020-03-28 15:23:01 · 1651 阅读 · 0 评论 -
[机器学习笔记] 分类与预测算法评价指标
分类与预测算法评价指标分类与预测模型对训练集进行预测而得出的准确率并不能很好地反应预测模型未来的性能,为了有效判断一个预测模型的性能表现,需要一组没有参与预测模型建立的数据集,并在该数据集上评价预测模型的准确率,这组独立的数据集叫做测试集。模型预测效果评价,通常用这样一些指标来衡量;相对/绝对误差(E为绝对误差:Absolute Error,e 为相对误差 Relative Error...原创 2020-03-28 15:06:44 · 843 阅读 · 0 评论 -
[机器学习笔记] (四)决策树 Decision Tree
(四)决策树 Decision Tree基本概念决策树(Decision Tree)是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法。由于这种决策分支画成图形很像一棵树的枝干,故称决策树。机器学习中,决策树是一个预测模型;他代表的是对象属性与对象值之间的一种映射关系。树中每个节...原创 2020-03-28 14:51:23 · 2059 阅读 · 0 评论 -
[Python] Python实现的 Linear Regression 例子(附图)
Python实现的 Linear Regression 例子(附图)简单线性回归Python来实现一个简单的线性回归的例子。假设下面的两个变量是线性相关的。因此,我们试图找到一个线性函数,尽可能准确地预测响应值(y)作为特征或自变量(x)的函数。x 0 1 2 3 4 5 6 7 8 9 y 1 3 ...原创 2020-03-26 19:13:26 · 4150 阅读 · 0 评论 -
[机器学习笔记] Logistic Regression与Linear Regression的区别
逻辑回归(Logistic Regression)与线性回归(Linear Regression)的区别Logistic Regression应用于分类问题 除了可以解决二分类问题外,还可以解决多分类问题。 Logistic Regression 是离散的。例如预测明天天气-阴,晴,雨。分类问题是用于将事物打上一个标签,通常结果为离散值。例如判断一幅图片上的动物是一只猫还是一只狗...原创 2020-03-25 23:38:34 · 3916 阅读 · 0 评论 -
[机器学习笔记] 特征(Feature)和特征选择(Feature Selection)
特征(Feature)和特征选择(Feature Selection)概念解释在机器学习中,将属性称为“特征(Feature)”,对当前学习任务有用的属性称为“相关特征(Relevant Feature)”,没有什么用的属性称为“无关特征(Irrelevant Feature)”。从给定的特征集合中选择出相关特征子集的过程,称为“特征选择(Feature Selection)”特征选择...原创 2020-03-25 00:21:09 · 2935 阅读 · 0 评论 -
[机器学习笔记] 机器学习中的“过拟合(Overfitting)”和“欠拟合(Underfitting)”
机器学习中的“过拟合(Overfitting)”和“欠拟合(Underfitting)”在机器学习领域中,当讨论一个机器学习模型学习和泛化的好坏时,通常使用术语是:过拟合(Overfitting)和欠拟合(Underfitting)。过拟合和欠拟合是机器学习算法表现差的两大原因。什么是过拟合和欠拟合?过拟合(overfitting):是指在模型参数拟合过程中的问题,由于训练数据包含抽样...原创 2020-03-24 23:37:07 · 4183 阅读 · 0 评论 -
[机器学习笔记] Python 绘制ROC曲线的例子
Python 绘制ROC曲线的例子ROC的全称是“受试者工作特征”(Receiver Operating Characteristic)曲线。根据学习器的预测结果对样例进行排序,按此顺序逐个把样本作为正例进行预测,每次计算出两个重要量的值(TPR、FPR),分别以它们为横、纵坐标作图。与PR曲线使用查准率、查全率为纵、横不同,ROC 曲线的纵轴是“真正例率”(True Positive R...原创 2020-03-24 21:17:24 · 4085 阅读 · 0 评论 -
[机器学习笔记] 混淆矩阵(Confusion Matrix)
混淆矩阵(Confusion Matrix)在机器学习领域,混淆矩阵(Confusion Matrix),又称为可能性矩阵或错误矩阵。混淆矩阵是可视化工具,特别用于监督学习,在无监督学习一般叫做匹配矩阵。在图像精度评价中,主要用于比较分类结果和实际测得值,可以把分类结果的精度显示在一个混淆矩阵里面。混淆矩阵的结构一般如下图表示的方法。混淆矩阵要表达的含义:混淆矩阵的每一列代表了预测...原创 2020-03-24 01:38:51 · 146429 阅读 · 8 评论 -
[机器学习笔记] (一)机器学习基本概念篇(含思维导图)
(一)机器学习基本概念篇什么是机器学习呢?机器学习是一种能够赋予机器学习的能力以此让它完成直接编程无法完成的功能的方法。但从实践的意义上来说,机器学习是一种通过利用数据,训练出模型,然后使用模型预测的一种方法。机器学习的定义机器学习有下面几种定义:(1) 机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能。(2) 机器学习是对...原创 2020-03-23 21:12:49 · 2297 阅读 · 0 评论