![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
MachineLearning
文章平均质量分 95
蔡永吉
公众号: 蔡永吉
展开
-
机器学习(六):通俗易懂无监督学习K-Means聚类算法及代码实践
K-Means是一种无监督学习方法,用于将无标签的数据集进行聚类。其中K指集群的数量,Means表示寻找集群中心点的手段。一、 无监督学习 K-Means贴标签是需要花钱的。所以人们研究处理无标签数据集的方法。(笔者狭隘了)面对无标签的数据集,我们期望从数据中找出一定的规律。一种最简单也最快速的聚类算法应运而生—K-Means。它的核心思想很简单:物以类聚。用直白的话简单解释它的算法执行过程如下:随便选择K个中心点(大哥)。把距离它足够近的数据(小弟)吸纳为成员,聚成K个集群(组织)。.原创 2021-03-20 02:08:27 · 911 阅读 · 0 评论 -
机器学习(五):通俗易懂决策树与随机森林及代码实践
与SVM一样,决策树是通用的机器学习算法。随机森林,顾名思义,将决策树分类器集成到一起就形成了更强大的机器学习算法。它们都是很基础但很强大的机器学习工具,虽然我们现在有更先进的算法工具来训练模型,但决策树与随机森林因其简单灵活依然广受喜爱,建议大家学习。一、决策树1.1 什么是决策树我们可以把决策树想象成IF/ELSE判别式深度嵌套的二叉树形结构。以我们在《机器学习(三):理解逻辑回归及二分类、多分类代码实践》所举的鸢尾花数据集为例。我们曾用seaborn绘制花瓣长度和宽度特征对应鸢尾花种类的散点图原创 2021-02-25 20:57:40 · 940 阅读 · 0 评论 -
机器学习(四):通俗理解支持向量机SVM及代码实践
上一篇文章我们介绍了使用逻辑回归来处理分类问题,本文我们讲一个更强大的分类模型。本文依旧侧重代码实践,你会发现我们解决问题的手段越来越丰富,问题处理起来越来越简单。支持向量机(Support Vector Machine, SVM)是最受欢迎的机器学习模型之一。它特别适合处理中小型复杂数据集的分类任务。一、什么是支持向量机SMV在众多实例中寻找一个最优的决策边界,这个边界上的实例叫做支持向量,它们“支持”(支撑)分离开超平面,所以它叫支持向量机。那么我们如何保证我们得到的决策边界是最优的呢?如上原创 2021-02-15 15:38:41 · 599 阅读 · 1 评论 -
机器学习(三):理解逻辑回归及二分类、多分类代码实践
本文是机器学习系列的第三篇,算上前置机器学习系列是第八篇。本文的概念相对简单,主要侧重于代码实践。上一篇文章说到,我们可以用线性回归做预测,但显然现实生活中不止有预测的问题还有分类的问题。我们可以从预测值的类型上简单区分:连续变量的预测为回归,离散变量的预测为分类。一、逻辑回归:二分类1.1 理解逻辑回归我们把连续的预测值进行人工定义,边界的一边定义为1,另一边定义为0。这样我们就把回归问题转换成了分类问题。如上图,我们把连续的变量分布压制在0-1的范围内,并以0.5作为我们分类决策的边界,大于原创 2021-02-01 16:30:37 · 835 阅读 · 1 评论 -
机器学习(二):理解线性回归与梯度下降并做简单预测
预测从瞎猜开始按上一篇文章所说,机器学习是应用数学方法在数据中发现规律的过程。既然数学是对现实世界的解释,那么我们回归现实世界,做一些对照的想象。想象我们面前有一块塑料泡沫做的白板,白板上分布排列着数枚蓝色的图钉,隐约地它们似乎存在着某种规律,我们试着找出规律。白板上的图钉(数据)如上图所示,我们有没有一种方法(数学算法)来寻找规律(模型解释)呢? 既然不知道怎么做,那我们瞎猜吧!我拿起两根木棒在白板前比划,试着用木棒表示数据的规律。我随便放了放,如下图所示:它们似乎都在一定程度上能表示蓝色原创 2021-01-19 19:09:20 · 349 阅读 · 0 评论 -
机器学习(一):5分钟理解机器学习并上手实践
引言现在市面上的机器学习教程大多先学习数学基础,然后学机器学习的数学算法,再建立机器学习的数学模型,再学习深度学习,再学习工程化,再考虑落地。这其中每个环节都在快速发展,唯独落地特别困难。我们花费大量时间成本去学习以上内容,成本无疑是特别昂贵的。所以我们不如先“盲人摸象”、“不求甚解”地探索下机器学习,浅尝辄止。如果想到自己的应用场景,再学以致用,深入探索。这无疑是使沉没成本最低的决策。本教程适合兴趣广泛的人士增加自己知识的广度,从应用的角度谨“使用”机器学习这款工具,是典型的黑盒思维。这非常契合笔者的原创 2021-01-16 00:17:28 · 1082 阅读 · 0 评论 -
机器学习速查表(cheatsheet)资源汇总分享
本文收集整理了机器学习相关速查表(Machine Learning Cheatsheet),包含机器学习、Python、Numpy、Pandas、Matplotlib、线性代数、微积分、统计学、概率论等相关速查表。我已经建立了开源项目MachineLearningCheatsheets,我将持续更新机器学习相关的各种cheatsheet,欢迎star。目录机器学习神经网络架构Azure机器学习算法SAS 机器学习算法The world of machine learning algorith原创 2020-12-18 19:51:31 · 1155 阅读 · 1 评论 -
前置机器学习(四):一文掌握Pandas用法
Pandas提供快速,灵活和富于表现力的数据结构,是强大的数据分析Python库。本文收录于机器学习前置教程系列。一、Series和DataFramePandas建立在NumPy之上,更多NumPy相关的知识点可以参考我之前写的文章前置机器学习(三):30分钟掌握常用NumPy用法。Pandas特别适合处理表格数据,如SQL表格、EXCEL表格。有序或无序的时间序列。具有行和列标签的任意矩阵数据。打开Jupyter Notebook,导入numpy和pandas开始我们的教程:import .原创 2020-12-13 13:23:39 · 388 阅读 · 0 评论 -
前置机器学习(三):30分钟掌握常用NumPy用法
NumPy支持大量的维度数组与矩阵运算,是针对数组运算的Python库。本文收录于机器学习前置教程系列。一、Python基础我们首先巩固一下Python的基础知识。Python有6种标准数据类型:Number(数字),String(字符串),List(列表),Tuple(元组),Set(集合),Dictionary(字典)。其中:不可变数据:Number(数字)、String(字符串)、Tuple(元组)。可变数据:List(列表)、Dictionary(字典)、Set(集合)。1. Li.原创 2020-12-06 07:38:03 · 439 阅读 · 0 评论 -
前置机器学习(二):30分钟掌握常用Jupyter Notebook用法
相较于Pycharm执行py文件来说,Jupyter Notebook可保存执行过程,添加图表、注释等富文本说明的功能,使其对机器学习的开发者格外友好。本文包含机器学习环境安装,Jupyter Notebook常见用法:常见使用、命令、快捷键等。进阶用法:LaTeX数学公式、魔法命令等。本文收录于机器学习前置教程系列。一、机器学习环境安装网上安装机器学习环境的资料非常多,我没有必要过分详细介绍。此处推荐我个人的安装方式Miniconda+清华镜像,因为使用国内镜像所以非常快。1. Minico.原创 2020-12-02 01:10:51 · 340 阅读 · 0 评论 -
前置机器学习(一):数学符号及希腊字母
本文收录于机器学习前置教程系列。本文列出了常用的机器学习数学符号(Mathematical notations),包含代数、微积分、线性代数、概率论、集合论、统计学以及希腊字母。代数符号名称描述例子(f∘g)复合函数嵌套函数(f∘g)(x)=f(g(x))∆德耳塔变化/区别∆x=x_1-x_0e欧拉数e=2.718281828$ s= \frac{1}{1+e^{-z}}$∑求和求和∑x_i=x_1+x_2+x_3∏大写派所有原创 2020-11-29 00:07:06 · 566 阅读 · 0 评论 -
机器学习导图系列(3):过程
机器学习导图系列教程旨在帮助引导开发者对机器学习知识网络有一个系统的概念,其中有些具体释义并未完善,需要开发者自己探索才能对具体知识有深入的掌握。本项目灵感来自Daniel Formoso的github开源项目。本文作者对其项目进行翻译、整理、批注等二次创作,其中不乏生僻的数学名词,对于没有留过学的作者来说费了很多功夫。我又将导图整理成了知识卡片,方便大家查看。由于机器学习的知识网络很大,导致完整...原创 2019-04-10 01:08:58 · 209 阅读 · 0 评论 -
机器学习导图系列(2):概念
机器学习导图系列教程旨在帮助引导开发者对机器学习知识网络有一个系统的概念,其中具体释义并未完善,需要开发者自己探索才能对具体知识有深入的掌握。本项目灵感来自Daniel Formoso的github开源项目。本文作者对其项目进行翻译、整理、批注等二次创作,其中不乏生僻的数学名词,对于没有留过学的作者来说费了很多功夫。我又将导图整理成了知识卡片,方便大家查看。由于机器学习的知识网络很大,导致完整的导...原创 2019-04-08 21:46:39 · 223 阅读 · 0 评论 -
机器学习导图系列(5):机器学习模型及神经网络模型
机器学习导图系列教程旨在帮助引导开发者对机器学习知识网络有一个系统的概念,其中有些具体释义并未完善,需要开发者自己探索才能对具体知识有深入的掌握。本项目灵感来自Daniel Formoso的github开源项目。本文作者对其项目进行翻译、整理、批注等二次创作,其中不乏生僻的数学名词,对于没有留过学的作者来说费了很多功夫。我又将导图整理成了知识卡片,方便大家查看。由于机器学习的知识网络很大,导致完整...原创 2019-04-11 20:23:11 · 407 阅读 · 0 评论 -
机器学习导图系列(1):数据处理
机器学习导图系列教程旨在帮助引导开发者对机器学习知识网络有一个系统的概念,其中具体释义并未完善,需要开发者自己探索才能对具体知识有深入的掌握。本项目灵感来自Daniel Formoso的github开源项目。本文作者对其项目进行翻译、整理、批注等二次创作,其中不乏生僻的数学名词,对于没有留过学的作者来说费了很多功夫。我又将导图整理成了知识卡片,方便大家查看。由于机器学习的知识网络很大,导致完整的导...原创 2019-04-07 00:14:25 · 448 阅读 · 0 评论 -
机器学习导图系列(4):算法(含61公式)
机器学习导图系列教程旨在帮助引导开发者对机器学习知识网络有一个系统的概念,其中有些具体释义并未完善,需要开发者自己探索才能对具体知识有深入的掌握。本项目灵感来自Daniel Formoso的github开源项目。本文作者对其项目进行翻译、整理、批注等二次创作,其中不乏生僻的数学名词,对于没有留过学的作者来说费了很多功夫。我又将导图整理成了知识卡片,方便大家查看。由于机器学习的知识网络很大,导致完整...原创 2019-04-10 19:14:57 · 260 阅读 · 0 评论