
DataScience
基于机器学习和深度学习算法的数据科学
一个处女座的程序猿
人工智能硕博生,拥有十多项发明专利(6项)和软著(9项),包括SCI内多篇论文,多个国家级证书(2个国三级、3个国四级),曾获国内外“人工智能算法”竞赛(包括国家级省市级等,一等奖5项、二等奖4项、三等奖2项)证书十多项,以上均以第一作者身份,并拥有省市校级个人荣誉证书十多项。目前也是国内知名博主,连续3年获CSDN十大博客之星,荣获达摩院评测官、阿里社区/CSDN社区/51CTO/华为社区等十多个开发者社区专家博主荣誉,曾受邀阿里/华为/谷歌等(开发者社区)采访-评审-论坛几十次。截止2022年,AI领域粉丝超100万,文章阅读量超5000万。正在撰写《AI算法最新实战》一书,目前已43万字
展开
-
Paper:《Is GPT-4 a Good Data Analyst?GPT-4是一个好的数据分析师吗?》翻译与解读
Paper:《Is GPT-4 a Good Data Analyst?GPT-4是一个好的数据分析师吗?》翻译与解读目录《Is GPT-4 a Good Data Analyst?GPT-4是一个好的数据分析师吗?》翻译与解读Abstract摘要1、Introduction引言2、RelatedWork相关工作3、TaskDescription任务描述4、Our Framework我们的框架5、Experiments实验6、CaseSt原创 2023-05-30 01:13:22 · 883 阅读 · 0 评论 -
AI:人工智能应用领域场景中处理时序序列性数据常用算法之基于神经网络算法(对比CNN/RNN/Transformer算法优劣)的简介、案例应用之详细攻略
AI:人工智能应用领域场景中处理时序序列性数据常用算法之基于神经网络算法(对比CNN/RNN/Transformer算法优劣)的简介、案例应用之详细攻略目录AI算法中,如何处理时序性数据—对比CNN、RNN、Transformer算法优劣AI算法中,如何处理时序性数据—对比CNN、RNN、Transformer算法优劣比如,存在这样一个时序性数据,“他欠我100万”,和“我欠他100万”,两者的意思千差万别对比RNN和CNN算法特点适应场景CNN提取的是局部原创 2023-02-05 23:13:29 · 800 阅读 · 0 评论 -
Competition:Kaggle竞赛平台的简介(比赛任务/常用数据集)、使用方法(Kaggle上比赛操作流程案例)、比赛经验(案例理解)之详细攻略
Competition:Kaggle竞赛平台的简介(比赛任务/常用数据集)、使用方法(Kaggle上比赛操作流程案例)、比赛经验(案例理解)之详细攻略目录Kaggle竞赛平台的简介Kaggle竞赛平台的使用方法(了解如何在Kaggle上进行比赛)Kaggle竞赛平台的实战案例Kaggle竞赛平台的简介 Kaggle是一个知名的在线数据科学竞赛平台,吸引了全球的数据科学家和机器学习爱好者。Kaggle竞赛的特点是竞赛难度大、原创 2019-03-13 12:12:49 · 906 阅读 · 1 评论 -
ML之XGBoost:基于泰坦尼克号数据集(填充/标签编码/推理数据再处理)利用XGBoost算法(json文件的模型导出和载入推理)实现二分类预测应用案例
ML之XGBoost:基于泰坦尼克号数据集(填充/标签编码/推理数据再处理)利用XGBoost算法(json文件的模型导出和载入推理)实现二分类预测应用案例目录基于泰坦尼克号数据集(独热编码/标签编码)利用XGBoost算法(json文件的模型导出和载入推理)实现二分类预测应用案例# 1、定义数据集# 2、数据预处理# 3、模型训练与评估# 4、模型推理基于泰坦尼克号数据集(独热编码/标签编码)利用XGBoost算法(json文件的模型导出和载入推原创 2023-05-24 21:44:13 · 676 阅读 · 0 评论 -
DSt:数据结构的最强学习路线之数据结构知识讲解与刷题平台、刷题集合、问题为导向的十大类刷题算法(数组和字符串、栈和队列、二叉树、堆实现、图、哈希表、排序和搜索、动态规划/回溯法/递归/贪心/分治)总
DSt:数据结构的最强学习路线之数据结构知识讲解与刷题平台、刷题集合、问题为导向的十大类刷题算法(数组和字符串、栈和队列、二叉树、堆实现、图、哈希表、排序和搜索、动态规划/回溯法/递归/贪心/分治)总结目录数据结构的最强学习路线之问题为导向的十大类刷题算法总结一、学习相关的讲解与刷题平台二、刷题集合三、常见的十大类考试题型数据结构的最强学习路线之问题为导向的十大类刷题算法总结一、学习相关的讲解与刷题平台1.1、数据结构+算法可视化USF原创 2023-04-22 23:36:17 · 715 阅读 · 0 评论 -
ML:MetaCost算法(代价敏感学习/分类任务中的不平衡数据集)的简介(调整少样本权重)、使用方法、案例应用之详细攻略
ML:MetaCost算法(代价敏感学习/分类任务中的不平衡数据集)的简介(调整少样本权重)、使用方法、案例应用之详细攻略目录MetaCost算法的简介MetaCost算法的案例应用MetaCost算法的简介MetaCost算法(代价敏感学习/分类任务中的不平衡数据集)的概述简介MetaCost算法是一种元学习(meta-learning)算法,用于处理分类问题中的不平衡数据集。它的主要目标是通过元模型的方式来调整分类器的代价矩阵,从而解决不平衡数据集带来的问题。Meta原创 2023-04-22 23:35:22 · 980 阅读 · 0 评论 -
DS:基于鸢尾花数据集利用多种数据降维技术(PCA、SVD、MDS、LDA、T-SNE)实现三维可视化
DS:基于鸢尾花数据集利用多种数据降维技术(PCA、SVD、MDS、LDA、T-SNE)实现三维可视化目录基于鸢尾花数据集利用多种数据降维技术(PCA、SVD、MDS、LDA、T-SNE)实现三维可视化# 1、加载示例数据集(鸢尾花数据集)# 2、数据预处理# 3、三维图可视化基于鸢尾花数据集利用多种数据降维技术(PCA、SVD、MDS、LDA、T-SNE)实现三维可视化# 1、加载示例数据集(鸢尾花数据集)X_arr (150, 4) [[5.1原创 2023-05-19 00:29:17 · 636 阅读 · 0 评论 -
DS之MDS:MDS(Multidimensional Scaling)多维尺度降维算法的简介、使用方法、案例应用之详细攻略
DS之MDS:MDS(Multidimensional Scaling)多维尺度降维算法的简介、使用方法、案例应用之详细攻略目录MDS的简介MDS的案例应用MDS的简介MDS(Multidimensional Scaling)降维算法的概述简介多维尺度(Multidimensional scaling,缩写MDS,又译“多维标度”)也称作“相似度结构分析”(Similarity structure analysis),属于多重变量分析的方法之一,是社会学、数量心理学、市场营销等原创 2023-04-22 23:33:15 · 472 阅读 · 0 评论 -
ML之VAR:基于上海最高气温数据集利用时间序列模型之VAR向量自回归模型/多变量自回归模型实现回归预测案例
ML之VAR:基于上海最高气温数据集利用时间序列模型之VAR向量自回归模型/多变量自回归模型实现回归预测案例目录基于上海最高气温数据集利用时间序列模型之VAR向量自回归模型/多变量自回归模型实现回归预测案例# 1、定义数据集# 2、数据集预处理# 3、模型训练与评估基于上海最高气温数据集利用时间序列模型之VAR向量自回归模型/多变量自回归模型实现回归预测案例# 1、定义数据集 week max_temperature ... air_原创 2023-05-16 22:32:52 · 1043 阅读 · 0 评论 -
Algorithm:【Algorithm算法进阶之路】之十大经典排序算法(简单插入排序/希尔排序、选择排序/堆排序、冒泡排序/快速排序、归并排序、计数排序/桶排序/基数排序)动态图文讲解及其代码实现
Algorithm:【Algorithm算法进阶之路】之十大经典排序算法(简单插入排序/希尔排序、选择排序/堆排序、冒泡排序/快速排序、归并排序、计数排序/桶排序/基数排序)动态图文讲解及其代码实现目录排序算法思维导图十大算法复杂度、稳定性比较十大排序算法相关文章Algorithm:【Algorithm算法进阶之路】之数据结构二十多种算法演示Algorithm:【Algorithm算法进阶之路】之十大经典排序算法Algorithm:【Algori原创 2018-05-21 19:28:10 · 43285 阅读 · 4 评论 -
ML之FE:基于自定义数据集进行对比标准化处理和归一化处理、自定义标签编码(二类编码和三类编码)、自动标签编码实现代码
ML之FE:基于自定义数据集进行对比标准化处理和归一化处理、自定义标签编码(二类编码和三类编码)、自动标签编码实现代码目录基于自定义数据集进行对比标准化处理和归一化处理、自定义标签编码(二类编码和三类编码)、自动标签编码基于自定义数据集进行对比标准化处理和归一化处理、自定义标签编码(二类编码和三类编码)、自动标签编码实现代码# encoding: utf-8import pandas as pdimport numpy as npnp.random.seed(123)im原创 2023-05-15 21:38:47 · 572 阅读 · 0 评论 -
ML之FE:利用pandas库衡量两个特征间的各种关系指标集合(Pearson相关系数(仅线性相关)、kendall相关系数、Spearman秩相关系数)实现代码
ML之FE:利用pandas库衡量两个特征间的各种关系指标集合(Pearson相关系数(仅线性相关)、kendall相关系数、Spearman秩相关系数)实现代码目录利用pandas库衡量两个特征间的各种关系指标集合(Pearson相关系数(仅线性相关)、kendall相关系数、Spearman秩相关系数)利用pandas库衡量两个特征间的各种关系指标集合(Pearson相关系数(仅线性相关)、kendall相关系数、Spearman秩相关系数)实现代码# ML之FE:利用panda原创 2023-05-15 21:38:33 · 587 阅读 · 0 评论 -
ML之Tree:决策树模型常见分类(CART、ID3、C4.5算法的对比)、【数值型】特征中“离散型”特征和“连续型”特征的处理区别、树类模型处理【类别型】特征的两种策略及其代码实战
ML之Tree:决策树模型常见分类(CART、ID3、C4.5算法的对比)、【数值型】特征中“离散型”特征和“连续型”特征的处理区别、树类模型处理【类别型】特征的两种策略及其代码实战目录理论分析:决策树模型本身的内部结构是对【数值型】特征中的“连续型”特征和“离散型”特征的处理简介案例实战:树类模型处理【类别型】特征的两种策略理论分析:决策树模型本身的内部结构是对【数值型】特征中的“连续型”特征和“离散型”特征的处理简介简介鉴于树模型本身的特殊性,决策树模原创 2023-05-12 00:53:20 · 1472 阅读 · 0 评论 -
ML:基于泰坦尼克号数据集利用多种树类算法(独热编码/标签编码+DT/RF/XGBoost/LightGBM/CatBoost+主要探究各算法对【类别型】特征的处理)进行交叉验证训练并对比模型性能
ML:基于泰坦尼克号数据集利用多种树类算法(独热编码/标签编码+DT/RF/XGBoost/LightGBM/CatBoost+主要探究各算法对【类别型】特征的处理)进行交叉验证训练并对比模型性能目录基于泰坦尼克号数据集利用多种树类算法(独热编码/标签编码+DT/RF/XGBoost/LightGBM/CatBoost+主要探究各算法对【类别型】特征的处理)进行交叉验证训练并对比模型性能# 1、定义数据集# 2、数据预处理# 3、模型训练与验证# T1、模型交叉验证并原创 2023-05-11 23:39:30 · 1063 阅读 · 0 评论 -
Py之featuretools:featuretools库的简介、安装、使用方法之详细攻略
Py之featuretools:featuretools库的简介、安装、使用方法之详细攻略目录featuretools库的简介featuretools库的安装featuretools库的使用方法featuretools库的简介 featuretools库的简介featuretools是一个执行自动化功能工程的框架。它擅长于将时间和关系数据集转换为机器学习的特征矩阵。Featuretools主要是为机器学习准备数据,它自动从时间和关系原创 2020-05-09 21:11:34 · 3749 阅读 · 0 评论 -
ML之FE:基于波士顿房价数据集利用LightGBM算法进行模型预测然后通过3σ原则法(计算残差标准差)寻找测试集中的异常值/异常样本
ML之FE:基于波士顿房价数据集利用LightGBM算法进行模型预测然后通过3σ原则法(计算残差标准差)寻找测试集中的异常值/异常样本目录基于波士顿房价数据集利用LiR和LightGBM算法进行模型预测然后通过3σ原则法(计算残差标准差)寻找测试集中的异常值# 1、定义数据集# 2、数据预处理/特征工程# 3、模型训练与预测# 4、利用3σ原则寻找测试集中的异常值相关文章ML之FE:基于波士顿房价数据集利用LightGBM算法进行模型预测然后通过3σ原则法原创 2023-05-10 23:18:15 · 1080 阅读 · 0 评论 -
ML之FE:在机器学习领域,常见的机器学习算法各自对【数值型】特征和【类别型】特征的处理技巧总结以及有哪些算法喜欢高斯分布类型的数据
ML之FE:在机器学习领域,常见的机器学习算法各自对【数值型】特征和【类别型】特征的处理技巧总结以及有哪些算法喜欢高斯分布类型的数据目录常见的机器学习算法各自对【数值型】特征和【类别型】特征的处理技巧总结适合高斯分布类型的数据的算法及其原因简介常见的机器学习算法各自对【数值型】特征和【类别型】特征的处理技巧总结【数值型】特征【类别型】特征NB必须要求特征之间相互独立(1)、如果特征间存在强相关性,需要提前进行降维处理独热编码处理LiR/L原创 2023-05-10 23:18:08 · 821 阅读 · 0 评论 -
DS/ML:数据科学技术之数据科学生命周期(四大层次+机器学习六大阶段+数据挖掘【5+6+6+4+4+1】步骤)的全流程最强学习路线讲解之详细攻略
DS/ML:数据科学技术之数据科学生命周期(四大层次+机器学习六大阶段+数据挖掘【5+6+6+4+4+1】步骤)的全流程最强学习路线讲解之详细攻略目录相关文章零、数据科学生命周期一、问题抽象与理解→定义问题二、数据认知→数据收集三、机器学习领域六大阶段详解四、分析+决策+执行相关文章DS/ML:数据科学技术之数据科学生命周期(四大层次+机器学习六大阶段+数据挖掘【5+6+6+4+4+1】步骤)的全流程最强学习路线讲原创 2023-05-10 01:40:18 · 1444 阅读 · 1 评论 -
DataScience:数据不均衡-数据采样之重采样方法的简介(图文讲解,SMOTE概述-AdaSyn概述/Tomek Link概述/SMOTE+TomekLink组合采样概述)之详细攻略
DataScience:数据不均衡-数据采样之重采样方法的简介(图文讲解,SMOTE概述-AdaSyn概述/Tomek Link概述/SMOTE+TomekLink组合采样概述)之详细攻略目录重采样方法的简介重采样方法的简介0、各自对比:过采样、欠采样、组合抽样过采样(oversampling)和欠采样(undersampling)是处理不平衡数据集问题的两种基本方法。上采样/过采样下采样/欠采样组合抽样简介通过增加少数类别的样本数量来达到平衡数据集原创 2023-03-21 22:13:47 · 787 阅读 · 0 评论 -
ML之EasyEnsemble:EasyEnsemble算法(基于随机欠采样的集成学习算法)的简介、案例应用之详细攻略
ML之EasyEnsemble:EasyEnsemble算法(基于随机欠采样的集成学习算法)的简介、案例应用之详细攻略目录EasyEnsemble集成学习算法的简介1、EasyEnsemble算法(基于随机欠采样的集成学习算法)的概述2、EasyEnsemble算法对比Bagging算法EasyEnsemble集成学习算法的案例应用EasyEnsemble集成学习算法的简介1、EasyEnsemble算法(基于随机欠采样的集成学习算法)的概述简介EasyEns原创 2020-08-25 20:08:05 · 330 阅读 · 0 评论 -
DS:Gibbs Gauss采样的简介、实现代码之详细攻略
DS:Gibbs Gauss采样的简介、实现代码之详细攻略目录Gibbs Gauss采样的简介Gibbs Gauss采样的案例应用Gibbs Gauss采样的简介 Gibbs采样在高维分布中的效率较高,而且易于实现。其中一种常见的Gibbs采样算法是Gibbs Gauss采样(Gibbs sampling for Gaussian distributions),它主要用于从多元高斯分布中采样样本。 在Gibbs Gauss采样中,假设我们要从一个$n$维原创 2018-08-27 16:37:51 · 13133 阅读 · 1 评论 -
Py之imbalanced-ensemble:imbalanced-ensemble库的简介、安装、使用方法之详细攻略
Py之imbalanced-ensemble:imbalanced-ensemble库的简介、安装、使用方法之详细攻略目录imbalanced-ensemble库的简介imbalanced-ensemble库的安装imbalanced-ensemble库的使用方法imbalanced-ensemble库的简介 imbalanced-ensemble是一个用于处理不平衡数据集的 Python 库,它提供了一系列的机器学习方法和工具来解决不平衡数据集问题。该库旨在通过结合多原创 2023-05-09 21:03:35 · 828 阅读 · 0 评论 -
ML之LoR:基于泰坦尼克号数据集分别利用Platt校准和等距回归校准算法实现概率校准进而提高二元分类模型的预测准确性(模型提效)应用案例
ML之LoR:基于泰坦尼克号数据集分别利用Platt校准和等距回归校准算法实现概率校准进而提高二元分类模型的预测准确性(模型提效)应用案例目录基于泰坦尼克号数据集分别利用Platt校准和等距回归校准算法实现概率校准进而提高二元分类模型的预测准确性(模型提效)应用案例# 1、定义数据集# 2、数据预处理/特征工程# 3、模型训练与评估相关文章ML之LoR:基于泰坦尼克号数据集分别利用Platt校准和等距回归校准算法实现概率校准进而提高二元分原创 2023-05-15 21:39:49 · 732 阅读 · 1 评论 -
ML:机器学习模型提效之监督学习中概率校准的简介、案例应用之详细攻略
ML:机器学习模型提效之监督学习中概率校准的简介、案例应用之详细攻略目录监督学习中概率校准的简介监督学习中概率校准的案例应用监督学习中概率校准的简介监督学习中概率校准的概述背景分类器输出的概率通常不一定准确地反映真实的类别概率分布,导致在一些应用中出现问题。以二元分类为例,如果使用逻辑回归进行分类,那么输出的是一个实数值,表示为正例的概率。然而,这个概率并不一定准确,因为它不一定与实际标签的概率匹配。例如,在二元分类任务中,概率值为0.8的样本通常被认为比概率值为0.原创 2023-05-09 00:05:37 · 795 阅读 · 0 评论 -
ML:机器学习算法中—基于实例的学习算法(惰性学习算法)和基于模型的学习算法的简介、案例应用之详细攻略
ML:机器学习算法中—基于实例的学习算法(惰性学习算法)和基于模型的学习算法的简介、案例应用之详细攻略目录基于实例的学习算法(惰性学习算法)VS基于模型的学习算法基于实例的学习算法(惰性学习算法)和基于模型的学习算法的简介基于实例的学习算法(惰性学习算法)基于模型的学习算法简介基于实例的学习算法(Instance-based Learning),也称为惰性学习算法(Lazy Learning),因为它们将归纳或泛化过程推迟到进行分类时再进行。这些算法原创 2023-05-09 00:02:52 · 632 阅读 · 0 评论 -
ML:机器学习算法中模型分类期望误差(偏差+方差)的简介及其解决方法、使用方法之详细攻略
ML:机器学习算法中模型分类期望误差(偏差+方差)的简介及其解决方法、使用方法之详细攻略目录机器学习算法中模型分类期望误差(偏差+方差)的简介及其解决方法机器学习算法中偏差(匹配程度+拟合能力)和方差(波动程度+泛化能力)的概述机器学习算法中模型分类期望误差(偏差+方差)的使用方法机器学习算法中模型分类期望误差(偏差+方差)的简介及其解决方法机器学习算法中偏差(匹配程度+拟合能力)和方差(波动程度+泛化能力)的概述机器学习算法中,将模型分类错误的期望error分解原创 2023-05-08 23:59:55 · 1052 阅读 · 0 评论 -
Py之plotly:plotly库的简介、安装、使用方法之详细攻略
Py之plotly:plotly库的简介、安装、使用方法之详细攻略目录plotly库的简介plotly库的安装plotly库的使用方法plotly库的简介 Plotly是一个数据可视化和分析工具,提供多种绘图方式和交互式展示功能。Plotly提供了多种工具,包括Plotly.js(一个基于JavaScript的绘图库)、Plotly.py(一个基于Python的绘图库)、Plotly.R(一个基于R语言的绘图库)等。 Plotly的主要特点是支持交互式图原创 2020-04-30 16:37:56 · 3696 阅读 · 1 评论 -
DS/ML:《Top 19 Skills You Need to Know in 2023 to Be a Data Scientist,2023年成为数据科学家需要掌握的19项技能》翻译与解读
DS/ML:《Top 19 Skills You Need to Know in 2023 to Be a Data Scientist,2023年成为数据科学家需要掌握的19项技能》翻译与解读目录《Top 19 Skills You Need to Know in 2023 to Be a Data Scientist,2023年成为数据科学家需要掌握的19项技能》翻译与解读An overview of the ten most important.一、Big Data Process原创 2023-04-22 23:32:30 · 1296 阅读 · 0 评论 -
BigData:MaxCompute大数据计算服务(阿里巴巴开发/原ODPS/云计算分布式)的简介(基本概念/功能/流程图)、使用方法之详细攻略
BigData:MaxCompute大数据计算服务(阿里巴巴开发/原ODPS/云计算分布式)的简介(基本概念/功能/流程图)、使用方法之详细攻略目录背景—传统分布式计算的弊端MaxCompute(大数据计算服务)的简介MaxCompute(大数据计算服务)的使用方法背景—传统分布式计算的弊端 随着社会数据收集手段的不断丰富及完善,越来越多的行业数据被积累下来。数据规模已经增长到了传统软件行业无法承载的海量数据(百GB、TB、乃至PB原创 2020-12-28 23:53:16 · 3563 阅读 · 1 评论 -
DS:懒惰求值(Lazy Evaluation)的解释、意义、案例理解、注意事项之详细攻略
DS:懒惰求值(Lazy Evaluation)的解释、意义、案例理解、注意事项之详细攻略目录懒惰求值(Lazy Evaluation)的解释、意义、案例理解、注意事项懒惰求值(Lazy Evaluation)的解释、意义、案例理解、注意事项简介懒惰求值(Lazy Evaluation)是一种计算机程序的求值策略,它延迟计算表达式的值,直到该值被需要为止。意义在懒惰求值中,表达式的值只有在必要时才会被计算,而不是在表达式被绑定或定义时立即计算。这种求值策略通原创 2023-05-06 00:07:57 · 807 阅读 · 1 评论 -
DS:Wrangling library(数据处理和转换的编程库或工具集合)的解释、意义、常见操作之详细攻略
DS:Wrangling library(数据处理和转换的编程库或工具集合)的解释、意义、常见操作之详细攻略目录Wrangling library(数据处理和转换的编程库或工具集合)的解释、意义、常见操作Wrangling library(数据处理和转换的编程库或工具集合)的解释、意义、常见操作简介"Wranglinglibrary"是一个比较模糊的术语,没有一个确切的定义或官方的标准。通常情况下,它可以指代用于数据处理和转换的编程库或工具集合。意义数据处理和转换原创 2023-05-06 00:04:13 · 676 阅读 · 0 评论 -
MXNet:PS-Lite(MXNet并行库)的简介、使用方法、案例应用之详细攻略
MXNet:PS-Lite(MXNet并行库)的简介、使用方法、案例应用之详细攻略目录PS-Lite(MXNet并行库)的简介PS-Lite(MXNet并行库)的案例应用PS-Lite(MXNet并行库)的简介简介PS-Lite是MXNet框架(Amazon开发)中的一个分布式并行计算库,它实现了参数服务器(Parameter Server)模型并提供了分布式训练的支持。PS-Lite旨在解决大规模机器学习任务中参数更新和通信的效率和可扩展性问题。意义PS-Lite的意义原创 2023-05-05 23:53:24 · 640 阅读 · 0 评论 -
ML:基于boston房价数据集利用多种线性回归算法(OLS/PLS/Lasso/Ridge)模型对比实现房价回归预测应用案例
ML:基于boston房价数据集利用多种线性回归算法(OLS/PLS/Lasso/Ridge)模型对比实现房价回归预测应用案例目录基于boston房价数据集利用多种线性回归算法(OLS/PLS/Lasso/Ridge)模型对比实现房价回归预测应用案例# 1、定义数据集# 2、数据预处理# 3、模型训练与评估基于boston房价数据集利用多种线性回归算法(OLS/PLS/Lasso/Ridge)模型对比实现房价回归预测应用案例# 1、定义数据集 CRIM原创 2023-04-30 11:41:13 · 631 阅读 · 0 评论 -
DS:《Our Top Data and Analytics Predicts for 2019我们对 2019 年的顶级数据和分析预测》的翻译与解读
DS:《Our Top Data and Analytics Predicts for 2019我们对 2019 年的顶级数据和分析预测》的翻译与解读目录《Our Top Data and Analytics Predicts for 2019我们对 2019 年的顶级数据和分析预测》的翻译与解读《Our Top Data and Analytics Predicts for 2019我们对 2019 年的顶级数据和分析预测》的翻译与解读地址Our Top Data and原创 2019-03-21 11:08:52 · 8023 阅读 · 1 评论 -
ML之XGBoost:基于titanic泰坦尼克数据集(数据对齐+独热编码/标签编码+构造新特征【四则运算+采用DT/RF树叶节点编码自动构造特征】)利用XGBoost算法实现二分类预测应案例
ML之XGBoost:基于titanic泰坦尼克数据集(数据对齐+独热编码/标签编码+构造新特征【四则运算+采用DT/RF树叶节点编码自动构造特征】)利用XGBoost算法实现二分类预测应案例。原创 2023-04-26 20:39:16 · 474 阅读 · 0 评论 -
ML之FE之FS:特征选择之过滤式filter—基于titanic泰坦尼克数据集利用根据方差阈值(结合P值计算)、F检验(结合P值计算)、MI互信息法应用案例
ML之FE之FS:特征选择之过滤式filter—基于titanic泰坦尼克数据集利用根据方差阈值(结合P值计算)、F检验(结合P值计算)、MI互信息法应用案例目录特征工程/数据预处理—特征选择之利用过滤式filter—基于titanic泰坦尼克数据集利用根据方差阈值(基于P值计算最佳筛选特征个数)、F检验(基于P值计算最佳筛选特征个数)、MI互信息法应用案例实现代码# 1、定义数据集# 划分数据特征类型# 2、数据预处理/特征工程# 2.1、缺失值填充# 2.2、定义数字型特原创 2023-04-26 01:19:02 · 499 阅读 · 0 评论 -
ML之FE之FS:基于titanic泰坦尼克数据集(自定义所有类别型特征统一执行特征编码)利用基于排列重要性算法Wrapper_PFI_RF和Embedded_ETC实现特征筛选应用案例
ML之FE之FS:特征筛选之Wrapper、Embedded—基于titanic泰坦尼克数据集(自定义所有类别型特征统一执行特征编码)利用基于排列重要性算法Wrapper_PFI_RF和Embedded_ETC实现特征筛选应用案例目录特征筛选之Wrapper、Embedded—基于titanic泰坦尼克数据集(自定义所有类别型特征统一执行特征编码)利用基于排列重要性算法Wrapper_PFI_RF和Embedded_ETC实现特征筛选应用案例# 1、定义数据集# 2、特征工程/数据预处理原创 2023-04-26 00:30:23 · 688 阅读 · 0 评论 -
ML之PFI:机器学习可解释性之PFI/Permutation排列重要性/置换重要性算法之机器学习模型中哪些特征很重要?
ML之PFI:机器学习可解释性之PFI/Permutation排列重要性/置换重要性算法之机器学习模型中哪些特征很重要?目录机器学习可解释性之特征置换重要性之机器学习模型中哪些特征很重要?相关文章ML:机器学习可解释性之模型洞察之为什么以及什么时候你需要洞察力?ML之PFI:机器学习可解释性之特征置换重要性之机器学习模型中哪些特征很重要?ML之PDP:机器学习可解释性之部分依赖图之每个特征如何影响您的预测?ML之SHAP:机器学习可解释性之SHAP值之理解单样本单特征预测M原创 2022-07-11 23:16:28 · 1379 阅读 · 0 评论 -
ML之DR:基于鸢尾花(Iris)数据集利用多种降维算法(PCA/TSVD/LDA/TSNE)实现数据降维并进行二维和三维动态可视化应用案例
ML之DR:基于鸢尾花(Iris)数据集利用多种降维算法(PCA/TSVD/LDA/TSNE)实现数据降维并进行二维和三维动态可视化应用案例目录基于鸢尾花(Iris)数据集利用多种降维算法(PCA/TSVD/LDA/TSNE)实现数据降维并进行二维和三维动态可视化应用案例# 1、定义数据集# 2、数据预处理/特征工程基于鸢尾花(Iris)数据集利用多种降维算法(PCA/TSVD/LDA/TSNE)实现数据降维并进行二维和三维动态可视化应用案例# 1、定义数据集.. _原创 2023-04-24 22:17:41 · 1280 阅读 · 0 评论 -
FE之TSNE:基于MNIST手写数字数据集利用T-SNE/TSNE方法实现高维数据集可视化应(二维可视化和三维可视化)应用案例之详细攻略
FE之TSNE:基于MNIST手写数字数据集利用T-SNE/TSNE方法实现高维数据集可视化应(二维可视化和三维可视化)应用案例之详细攻略目录基于MNIST手写数字数据集利用T-SNE/TSNE方法实现高维数据集可视化应(二维可视化和三维可视化)应用案例# 1、定义数据集# 2、数据预处理/特征工程# T1、二维可视化# T2、三维可视化基于MNIST手写数字数据集利用T-SNE/TSNE方法实现高维数据集可视化应(二维可视化和三维可视化)应用案例# 1、定原创 2023-04-23 21:30:39 · 774 阅读 · 0 评论