
数据分析与机器学习
文章平均质量分 86
数据清洗、机器学习常见算法笔记。
jcLee95
CSDN博客专家、全栈优质作者。阿里云专家博主,华为云·云享专家,出版社签约作者。华为云开发社区组织2023年度核心贡献者。当前主要兴趣领域为,Flutter、HarmonyOS、Webassembly+Rust、electron。熟悉Python、PowerShell、Node及前端开发等。
展开
-
手写决策树算法——基于决策树的XX联盟游戏胜负预测
不纯度可以用信息熵entropy和基尼系数gini两种方式来数值化,表征特征的混乱程度。如果为’entropy’,则计算步骤为:1.先确定当前特征有多少取值(i=1,2,3,…),计算每种不同取值的概率piHX−∑i1npi⋅log2piHX−i1∑npi⋅log2pi如果为’gini’,则计算步骤为:1.先确定当前特征有多少取值(i=1,2,3,…),计算每种不同取值的概率pk2.计算基尼系数Gini∑i。原创 2023-05-19 17:30:19 · 788 阅读 · 0 评论 -
Python基础专题 - 超级详细的 Random(随机)原理解析与编程实践
Python基础专题 - Random(随机)详解继续阅读文本前,先说一个难以回避的事实:随机远远不是一个单纯的统计学概念,它是一个让物理学家都讨论不休、目前一切结论都可能存在历史局限性的谜。随机的背后依赖于不确定性,目前支撑起随机存在的主要是当下量子力学中的相关理论并且在当前的实践中似乎是对的。可以参考一些网络上的词条以及文章:【上帝不会掷骰子】、【真随机】、【中国科学家在国际上首次实现器件无关的量子随机数】1、什么是随机1.1 你是否思考过——随机是上帝的杰作随机其实并不是一个像其表原创 2021-04-06 11:41:19 · 8554 阅读 · 0 评论 -
机器学习 - [集成学习]Bagging算法的编程实现
机器学习 - [集成学习]Bagging算法的编程实现JackLee李俊才CSDN:jcLee95邮箱:291148484@163.com【导读】本文主要介绍如何实现Bagging算法,作为一种集成算法我们假设其基分类器已经写好。本文代码中,直接使用sklearn中的决策树分类器等基分类器。1. 回顾知识点从训练集中均匀随机有放回地采样不同的子集且训练不同的基础模型给定集合 D通过从D中均匀随机的有放回采样m个样本构建 Di(drawn with replacement, 取出放回原创 2021-04-05 11:20:27 · 2321 阅读 · 3 评论 -
机器学习 - [源码实现决策树小专题]决策树学习中如何进行分类预测
机器学习 - 决策树学习中如何进行分类预测CSDN:jcLee95JackLee邮箱:291148484@163.com1. 决策树建树回顾在阅读本文之前,你应该掌握如何去建立一颗决策树。由于不同的决策树存储结构算法的实现细节上存在一定的差异,因此本文源代码实现对决策树的索引是基于我之前的一篇博文【决策树如何分裂以扩展节点】中所建立的决策树而实现的。通过该博文我给出的源码运行后可以得到类似于这样一颗决策树:# 训练参数:{features=features, max_depth=3, min原创 2021-04-05 10:02:56 · 725 阅读 · 0 评论 -
机器学习 - [源码实现决策树小专题]决策树如何分裂以拓展节点(以及在不允许调用sklearn等库的源代码实现)
机器学习 - 决策树如何分裂以拓展节点【导读】:节点的分裂是决策树建立重要的一个环节。本文在实现求解最佳特征和划分数据集的基础上带领大家实现如何实现决策树的分裂以拓展节点、最终建立一颗分类树。1.文本引用的一些函数本文将用到其它的一些函数,这里将只展示它们的接口。这写函数也是在假设不允许调用sklearn等现成及其学习库的前提下,我自己写的。具体实现方法以及教程请依据链接跳转到对应的博文进行查看。博文1:混杂度的计算及其编程实现def impurity(anArray, impurity原创 2021-03-18 19:40:09 · 705 阅读 · 0 评论 -
机器学习 - 数据预处理中的 特征离散化 方法
可供参考的三种特征离散化方法在数据分析中,我们认为在某个范围内取值过于密集的特征认为是取值”连续“的特征。出于某些需求经常需要将这些”连续特征进行离散化“。本文介绍三种比较实用的数据离散化方法。方法1:尺度缩小法这种方法是对于数值元素的一种简单粗暴的方法。离散化的目的不就是减少取值数目吗。那么好,只要把数据除以某个值,大数就变小数,抹掉小数位,自然取值个数就少了很多。很显然,这种离散化方法的特点在于对越小的数整合归并能力越强。经常我们将数据读取为一个二维DataFrame结构的表,而需要离散化原创 2021-03-17 20:50:57 · 2989 阅读 · 0 评论 -
机器学习 - [源码实现决策树小专题]决策树中,信息增益、信息增益率计算以及最佳特征挑选的Python实现
信息增益与信息增益率计算的Python实现阅读本文前推荐先阅读:混杂度数值度量的Python编程实现阅读本文前推荐先阅读:决策树算法中数据集的划分导读:决策树是一种基于信息的学习算法。在决策树算法中需要不断地挑选出最佳特征,而挑选最佳特征地依据就是信息增益率。增益本身就具有相对地特性。在决策树算法中信息增益指的是依据某个特征的取值划分数据集时,数据集划分后相对于划分前,所能导致减少的信息不确定度。这也就是说信息增益即不确定度的降低值。当我们以信息熵(香浓熵,简称熵)作为不确定性的度量时,以数据原创 2021-03-17 19:34:21 · 2316 阅读 · 0 评论 -
机器学习 - [源码实现决策树小专题]决策树中子数据集的划分(不允许调用sklearn等库的源代码实现)
决策树算法中数据集的划分阅读本文后推荐先阅读:信息增益与信息增益率计算的Python实现原创 2021-03-17 14:08:38 · 1049 阅读 · 2 评论 -
机器学习 - [源码实现决策树小专题]决策树中混杂度数值度量的Python编程实现(信息熵和基尼系数的计算)
混杂度数值度量的Python编程实现顾名思义,所谓混杂度就是指无序程度,一般使用“信息熵”(香浓熵)或者“及逆序数进行度量”。1.信息熵(entropy)信息熵的计算步骤为:先确定当前特征有多少取值(i=1,2,3,…),计算每种不同取值的概率pi在依据公式计算信息熵:H(X) = -∑(i=1,n)|(pi·logpi) (以2为底)from math import logdef entropy1(anArray): """ 计算信息熵(香浓熵)原创 2021-03-16 16:43:52 · 1096 阅读 · 1 评论 -
Python编程 - 不调用相关choose库函数,“众数“挑选器、随机挑选器 的源码编程实现
"众数"挑选器、随机挑选器 导读:本文将带领大家实现写两种选择器。所谓选择器,指的是,给定一个元素容器,从该容器种依据一定的策,选取某类或某个特定的元素返回,以作为选择的结果(1)一种称之为“众数投票器”,顾名思义是按照以容器(Collection)中不同元素出现的次数作为依据,选出现次数最多的那一个元素返回。(2)第二种为“随机挑选器”首先是简单随机挑选器,就是不论各个元素在容器中的出现频率如何,随机返回其中的一个元素。应该指出这是一种“按元素类权重的随机挑选器”。当容器不进行去重时,以原创 2021-03-16 15:17:13 · 578 阅读 · 0 评论 -
Danfo.js专题 - Danfo.js与Dnotebook简介与入门
python数据分析工具的JavaScript替代方案【前言】:谷歌公司不仅推出了tensorflow的JavaScript版本tensorflow.js,在2020年又相继推出了pandas和jupyter notebook的JavaScript端替代品——Danfo.js和D notebook,它们和python端具有类似的接口,熟悉python中相关工具的开发者可以很快上手对应的工具。本文将追随者最新的相关内容不断更新系列博客。目录/索引1.转向JavaScript2.Dnotebook原创 2021-02-02 17:49:49 · 2562 阅读 · 0 评论 -
python数据可视化 - matplotlib专题:带数据标签的双batch的Bar图绘制示例
基于matplotlib的双Batch带标签bar图生成函数李俊才邮箱:291148484@163.com【代码实现】import matplotlibimport matplotlib.pyplot as pltimport numpy as npdef barchart_ax_2Batch(title, xlabel,ylabel, batch1_name,batch2_name,原创 2020-12-07 00:09:38 · 862 阅读 · 2 评论