2020年10月_林下月光

原创可视化逻辑回归最佳拟合直线

前言在上一篇博客中，逻辑回归的最佳回归系数做了说明，也通过代码来实现了怎么求解最佳回归系数。下面希望用可视化的方式来进一步理解这个算法。画决策边界因为逻辑回归常常是解决二分类的问题，所以我们画的决策边界，说得通俗一点就是用一条直线来将不同的类别分割开来。...

2020-10-31 22:19:26 1258

原创最佳回归系数

前言之前对什么是逻辑回归，以及它的公式由来做了说明。在明确了该分类器的函数式后，那么最佳的回归系数是多少呢？这是值得思考的问题，本篇博客将会对这个问题进行探讨。逻辑回归公式逻辑回归 = 线性回归 + sigmoid函数...

2020-10-31 14:35:46 1805 1

原创逻辑回归简单入门

什么是逻辑回归逻辑回归(Logistic Regression)，虽说算法名字中含回归二字，实则是一个分类算法，常常用于二分类问题。逻辑回归是什么这个问题，可以用如下等式来解释：逻辑回归 = 线性回归 + sigmoid函数线性回归线性回归就是用一条直线来拟合自变量和因变量之间的关系。在数学中就是，一次函数。表达式：y = w*x + b...

2020-10-29 09:35:28 431

原创二分类模型评价指标

0. 前言前面学习了一些分类算法，但是对于如何评价模型的好坏并未有太多了解，故此篇博客来讨论一下这个问题。

2020-10-28 15:36:18 491

原创多项式朴素贝叶斯

0. 前言上一篇博客学习了高斯朴素贝叶斯，下面将对伯努利朴素贝叶斯作一个说明。

2020-10-28 10:52:05 2069

原创高斯朴素贝叶斯

0. 前言在前面的几篇博客中，对朴素贝叶斯的理论知识进行了一个学习与总结，接下来希望对sklearn库中的朴素贝叶斯分类器作进一步的学习和说明。

2020-10-27 11:44:35 2698 1

原创 Windows Subsystem for Linux(WSL)安装

1. 什么是WSLWSL其实就是windows下的Linux子系统。主流的计算机的操作系统有：Windows、Linux、Mac OS。一般我们想同时使用Windows、Linux处理的方式都比较麻烦，比如说比较常见安装虚拟机，但是运行虚拟机对内存的占用很大。所以WSL是更好的选择！2. 安装启用“适用于Linux的Windows子系统”...

2020-10-27 10:28:31 636

0. 前言上一篇博文中，留下的问题是对于连续型变量的处理，将会在此篇博客中进一步说明。1. 两种方法分箱处理把每一个连续的属性离散化，即把连续型变量分成j个箱，将每个箱中的均值xi‾\overline{x_i}xi看成一个特征XiX_iXi上的取值，再计算箱j中Y=1所占的比例，即P(xi{x_i}xi|Y=1)。但这种方法不好控制箱子的大小，如果箱子太小，就会因为样本太少而不能对P(X|Y)作出可靠的估计；如果箱子太大，会失去正确的决策边界。所以一般不采用这种方法高斯分布假设连续变量

2020-10-26 22:07:26 2380 1

原创不建模算法与最大后验估计

0. 前言上一篇博客中，举了一个例子，通过10个带有标签的样本，对提出的某个问题进行了预测。但是在整个过程中，感觉是直接就算出了结果，没有通过训练集建立模型，再通过模型来预测的过程。这些疑问将在本篇博客中进一步说明。1. 不建模算法朴素贝叶斯是一个不建模的算法。在上一篇博客中，表格中的数据就是我们所说的训练集，而“没房、单身的人”就是没有标签的测试集。因为，训练集和测试集都是抽样于同一个不可获得的大样本，并且在这个大样本下的各种属性所表现处的规律应该是一致的，因此训练出来的各种概率可以直接放到测试集来

2020-10-26 18:07:30 259

原创朴素贝叶斯理论学习

1. 概述1.1 什么是朴素贝叶斯朴素贝叶斯是一种直接衡量标签和特征之间的概率关系的有监督的学习算法，是一种专注分类的算法。有一种说法是朴素贝叶斯分类器是真正的概率分类器。这句话该如何理解呢？因为其实在分类算法里边，特征和标签的关系并非是绝对的。比较经典的一个案例是，预测一个人能否在泰坦尼克号海难中生存下来。若构建一棵决策树来学习训练集，在训练样本中，有一个人特征为：30岁，男性，普通舱，最后是去世。在进行测试的时候，如果测试的这个人的特征也是30岁，男性，普通舱。决策树势必会给他打上去世的标签，但是

2020-10-26 13:01:38 346

原创贝叶斯

1. 什么是朴素贝叶斯？朴素贝叶斯是一种直接衡量标签和特征之间的概率关系的有监督的学习算法，是一种专注分类的算法。该算法是基于概率论和数理统计的贝叶斯理论，因此它是一个概率模型。2. 朴素贝叶斯如何工作？首先，需要了解概率论的基础的一些知识。假设有两个随机变量X，Y,它们分别可以取值为x,y。可以定义两种概率：联合概率“X取值为x”和“Y取值为y”两个事件同时发生的概率，即P(X=x,Y=y)条件概率在 “X取值为x”的前提下，“Y取值为y”的概率，即P(Y=y|X=x)举个栗子来说明一下

2020-10-25 18:48:44 325

原创 python代码构造决策树02

0. 前言之前的学习过程中，构造决策树的过程以及用其进行预测的过程都是通过调用算法库来实现的，为了更好地理解该算法，将参照《机器学习实战》一书来实现这个过程。1. 构造决策树数据不浮出水面可否生存是否有脚蹼属于鱼类是是是是是是是否否否是否否是否...

2020-10-24 15:20:20 440

原创 python代码实现构造决策树

0. 前言上一篇博客对决策树的分类器DecisionTreeClassifier以及回归器DecisionTreeRegressor进行了代码过程的梳理。这一篇博客希望调用算法库实现构造决策树的过程。1. python代码构造决策树加载数据集这里还是准备使用鸢尾花数据集，还是介绍一下这个数据集吧。该数据集一共包含150条记录，这150条记录被平均分成了3类，其中每一条数据有4种特征(feature):花萼长度，花萼宽度，花瓣长度，花瓣宽度。它的花萼长度，花萼宽度，花瓣长度，花瓣宽度这4个特征决定

2020-10-23 11:48:57 468

原创 python代码实现决策树分类

0. 前言上一篇博客对决策树算法的思想作了描述，也详细写了如何构造一棵决策树。现在希望用python代码来实现它。此处先调用机器学习中的算法库来实现。

2020-10-22 10:20:54 7950 1

原创初识决策树

1. 什么是决策树？

2020-10-21 10:44:51 417

原创 K-means算法小结

1. K-means算法回顾 k-means算法是一种无监督的聚类算法。其算法思想比较简单，就是对于给定的样本集，根据样本之间的距离，讲样本集划分为k个簇。并且希望结果中，簇内的点尽量紧密的连在一起，簇间的距离尽量大。2. K-means算法优缺点优点原理简单，容易实现有较强的可解释度 &nbs

2020-10-20 22:26:41 836

原创二分K-means及其python代码实现

1. 二分K-means算法算法描述该算法首先将所有点作为一个簇，然后把这个簇一分为二。再选择其中一个簇继续进行划分，选择哪一个簇继续进行划分取决于对其划分是否可以最大程度降低SSE的值。该划分过程一直重复，直至划分的簇的数目与用户指定的簇数目k相等。伪代码描述...

2020-10-20 15:40:34 3768 5

原创 K-means算法分析-提高聚类性能

K-means算法分析在上一篇博客中，通过python代码实现了k-means算法，但k-means算法还有如下问题值得思考：k值如何选取在该算法中簇的数目（类别数）k是由用户指定的参数，如何才能知道k的选取是否合理呢？方法：可以多尝试几个K值，看分成几类的结果更好解释，更符合分析目的。也可以把各种K值算出的SSE做比较，取最小的SSE的K值。初试k个质心如何选取在之前实现的过程中，是通过随机的方式选择的，但是有时候也会存在问题：虽然

2020-10-20 15:27:22 1344

原创 python代码实现K-means算法

0. 前言上一篇博客中，通过调用机器学习库sklearn实现了K-means算法；由于都被封装好了，虽然对算法思想清楚，但是内部实现的过程还需要拆开来自己实现以下可能才比较清楚，所以下面不通过调用本来的库来实现该算法。1. python实现K-means首先，我们需要准备一个数据集...

2020-10-19 19:56:26 12249 3

原创初识K-means算法

1. 聚类将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。通俗来讲，就是把是相似的东西分成一类。聚类在实际应用中也很广泛：在商务上，聚类能帮助市场分析人员从客户基本库中发现不同的客户群，并且用购买模式来刻画不同的客户群的特征；在生物学上，聚类能用于推导植物和动物的分类，对基因进行分类，获得对种群中固有结构的认识；聚类也可以根据房子的类型、价值

2020-10-16 17:11:25 303

原创 PyTorch安装教程

0. 前言 PyTorch是一个开源的Python机器学习库，基于Torch，用于自然语言处理等应用程序。它是一个以Python 优先的深度学习框架，不仅能够实现强大的GPU 加速，同时还支持动态神经网络。在安装PyTorch之前，我们还需要安装Anaconda和PyCharm。在机器学习、

2020-10-15 18:28:21 1314

原创 texstudio---下载安装（解决下载失败问题）

1. Tex studio下载首先需要去官网下载，但是可能会出现官网地址进不去的情况，还可能一直下载失败。此处还是附上官网下载地址，如果可以就从官网下吧：官网下载地址在官网texstudio一直下载失败，试了几次都不行，就从别人分享的网盘下载的，这里附上我的网盘安装包链接：链接：http

2020-10-15 09:35:15 11686 4

原创 knn小结

前面几篇博客对knn算法进行了学习，这里对该算法做个小结。1. 一些问题KNN的优点和缺点分别是什么？不同属性的值域大小不同（如有的跨度为500，而有的跨度为0.1），会导致什么问题，应如何解决？KNN算法的时间复杂度是多少？用什么办法可以降低其时间复杂度？2. KNN算法优缺点优点简单易用，比较容易理解：与其他算法相比，knn比较简洁明了，容易搞清楚其原理；精度高、对异常值不敏感、无数据输入假定预测效果不错

2020-10-14 22:39:20 242

原创 KNN算法的参数问题

上一篇博客中，通过代码实现knn：计算样本点与样本集中的每个样本的距离，接着排序并选出距离最近的k个点，并统计这k个点所属的类别，占比多的就是待测样本所属类别。之前通过鸢尾花数据集对该算法进行了学习，这篇博客希望通过对手写数字识别数据集预测来进一步熟悉knn算法。因为该数据集比鸢尾花数据集的数据量更大一点，可以进一步探究在对于相对较大的数据集中，knn算法的性能能否仍然保持较好的状态？...

2020-10-14 18:23:07 2199

原创 kd_tree

1. kd_treekd-tree（k-dimensional tree），一种对k维空间中的实例点进行存储以便对其进行快速检索的树形数据结构。主要应用于多维空间关键数据的搜索（如：范围搜索和最近邻搜索）。2. 最邻近搜索kd_tree树最邻近搜索的过程：...

2020-10-13 14:11:52 298

原创 2020-10-12讨论报告

1. 关于Alpha zeroAlphaGo Zero是谷歌下属公司Deepmind的新版程序。从空白状态学起，在无任何人类输入的条件下，AlphaGo Zero能够迅速自学围棋，并以100:0的战绩击败“前辈”。AlphaGo Zero的工作方式：使用MCTS预测搜索，并通过神经网络智能引导。下面将对AlphaGo Zero使用的这两个模型进行描述。2. MCTS蒙特卡洛搜索树2.1 总体介绍蒙特卡洛树搜索（Monte Carlo Tree Search）是一类树搜索算法的统称，简称MCTS。

2020-10-12 19:52:08 212

原创 KNN算法的python代码实现_02

在上一篇博客中，通过代码实现knn：计算样本点与样本集中的每个样本的距离，接着排序并选出距离最近的k个点，并统计这k个点所属的类别，占比多的就是待测样本所属类别。之前通过鸢尾花数据集对该算法进行了一个学习，这篇博客希望通过对手写数字识别数据集预测来进一步熟悉knn算法。1....

2020-10-11 17:24:59 201

原创 KNN算法的python代码实现_01

1. 回顾KNN算法步骤计算已知类别数据集中的点与当前点之间的距离按照距离递增次序排序；选取与当前点距离最小的 k 个点；确定前 k 个点所在类别的出现频率；返回前 k 个点出现频率最高的类别作为当前点的预测类别即我们只要计算出样本点与样本集中的每个样本的距离，接着排序并选出距离最近的k个点，并统计这k个点所属的类别，占比多的就是待测样本所属类别。2. 简易python代码实现准备样本点我选取了鸢尾花数据集中部分样本点，X的四列值分别表示了花瓣的长度、宽度以及花萼的长度、宽度，Y中的

2020-10-11 15:49:18 702 1

原创 K-近邻(KNN)算法

待思考的问题KNN的基本思想是什么？举一个现实生活的例子（非机器学习领域），说明KNN的应用KNN的优点和缺点分别是什么？不同属性的值域大小不同（如有的跨度为500，而有的跨度为0.1），会导致什么问题，应如何解决？KNN算法的时间复杂度是多少？用什么办法可以降低其时间复杂度？手绘KNN示意图1. KNN基本思想比较官方的说法：给定一个训练数据集，对新的输入实例，在训练数据集中找到与该实例最邻近的K个实例（也说K个邻居），这K个实例的多数属于某个类，就把该输入实例分类到这个类中。比

2020-10-10 16:45:26 675

weixin_41857483的博客