DataScience
文章平均质量分 76
基于机器学习和深度学习算法的数据科学
一个处女座的程序猿
2025年初博主2本新书(机器学习耗时5年/大模型耗时3年)即将开售!人工智能硕学历,拥有十多项发专利(6项)和软著(9项),包括国际期刊SCI内多篇论文,多个国家级证书(2个国三级、3个国四级),曾获国内外“人工智能算法”竞赛(包括国家级省市级等,一等奖5项、二等奖4项、三等奖2项)证书十多项,以上均第一作者身份,并拥有省市校级个人荣誉证书十多项。目前也是国内知名博主,连续3年获CSDN十大博客之星,荣获达摩院评测官、阿里社区/CSDN/华为社区等十多个开发者社区专家博主荣誉,曾受邀阿里/华为/谷歌等社区采访-评审-论坛几十次。截止2022年,AI领域粉丝超100万,文章阅读量超5000万
展开
-
AI之Data之Label Tool:Label Studio(多类型数据标注工具)的简介、安装和使用方法、案例应用之详细攻略
AI之Data之Label Tool:Label Studio(多类型数据标注工具)的简介、安装和使用方法、案例应用之详细攻略目录Label Studio的简介Label Studio的安装和使用方法:Label Studio的案例应用Label Studio的简介Label Studio 是一个开源的多类型数据标注和注释工具,具有标准化的输出格式。它允许你使用简单直观的界面来标注音频、文本、图像、视频和时间序列等多种类型的数据,并导出到各种模型原创 2024-11-29 00:45:19 · 1619 阅读 · 0 评论 -
ML之数据隐私:多种数据隐私技术对比—对客户数据集执行差分隐私计算(添加噪声到查询结果/允许对用户数据进行统计分析而不泄露具体信息)、AES加密(对称加密/相同密钥解密后才能进行计算/用于数据传输和存
ML之数据隐私:多种数据隐私技术对比—对客户数据集执行差分隐私计算(添加噪声到查询结果/允许对用户数据进行统计分析而不泄露具体信息)、AES加密(对称加密/相同密钥解密后才能进行计算/用于数据传输和存储的保护)、同态加密(可在加密数据上直接计算【加法和乘法】/计算结果在解密后与原始数据计算结果一致/适用于云计算和安全多方计算)目录对客户数据集执行差分隐私计算(添加噪声到查询结果/允许对用户数据进行统计分析而不泄露具体信息)、AES加密(对称加密/相同密钥解密后才能进行计算/用于数据传输和存储的保原创 2024-10-30 23:27:43 · 1255 阅读 · 0 评论 -
TC之FL:可信计算之联邦学习实战场景及其代码案例—基于联邦学习框架构建分布式评分卡模型—定义数据集→数据预处理→构建训练并评估算法模型→联邦平台获取模型参数→构建评分卡模型打分规则→执行打分
TC之FL:可信计算之联邦学习实战场景及其代码案例—基于联邦学习框架构建分布式评分卡模型—定义数据集→数据预处理→构建训练并评估算法模型→联邦平台获取模型参数→构建评分卡模型打分规则→执行打分目录可信计算之联邦学习实战场景及其代码案例—基于联邦学习框架构建分布式评分卡模型—定义数据集→数据预处理→构建训练并评估算法模型→联邦平台获取模型参数→构建评分卡模型打分规则→执行打分可信计算之联邦学习实战场景及其代码案例—基于联邦学习框架构建分布式评分卡模型—定义数据集→数据预处理→构建训练并评原创 2024-10-30 23:22:48 · 1277 阅读 · 0 评论 -
ML之FE:基于MovieLens数据集利用二度关系图谱(用户和电影是节点+用户对电影的评分是边的权重)来构造特征(利用图论算法来提取特征信息【节点的中心性和聚类系数】)+采用RF算法训练和评估
ML之FE:基于MovieLens数据集利用二度关系图谱(用户和电影是节点+用户对电影的评分是边的权重)来构造特征(利用图论算法来提取特征信息【节点的中心性和聚类系数】)+采用RF算法训练和评估目录基于MovieLens数据集利用二度关系图谱(用户和电影是节点+用户对电影的评分是边的权重)来构造特征(利用图论算法来提取特征信息【节点的中心性和聚类系数】)+采用RF算法训练和评估基于MovieLens数据集利用二度关系图谱(用户和电影是节点+用户对电影的评分是边的权重)来构造特征(利用图论原创 2024-03-10 23:50:43 · 1305 阅读 · 0 评论 -
ML之FE:特征工程中常用的五大数据集划分方法—模型训练/模型评估中常用的两种方法代码实现(留一法一次性切分训练和K折交叉验证训练)
ML之FE:特征工程中常用的五大数据集划分方法—模型训练/模型评估中常用的两种方法代码实现(留一法一次性切分训练和K折交叉验证训练)目录模型训练评估中常用的两种方法代码实现模型训练评估中常用的两种方法代码实现T1、留一法一次性切分训练T2、K折交叉验证训print("data split:")if kfold_flag: #T1、采用K折交叉验证训练 kf = KFold(n_splits=2, shuffle=False) # K折交叉验证 for tra原创 2021-04-14 20:09:58 · 2429 阅读 · 1 评论 -
ML之FE:数据预处理/特征工程之构造特征—构造交互特征(四则运算/多项式)—将输入特征进行多项式映射,即根据两个特征来构造多项式组合特征的代码实战
ML之FE:特征工程之特征构造——将输入特征进行多项式映射——即根据两个特征来构造多项式组合特征的代码实战目录特征工程之特征构造——将输入特征进行多项式映射——即根据两个特征来构造多项式组合特征的代码实战特征工程之特征构造——将输入特征进行多项式映射——即根据两个特征来构造多项式组合特征的代码实战输出结果degree = 3x1 x2 X1^1 * X2^0 X1^0 * X2^1 X1^2 * X2^0 X1^1 * X2^1 X1^0 * X2^2 X1^3 * X2^0 X1原创 2023-12-12 22:58:43 · 947 阅读 · 0 评论 -
ML之DS:2015年7月16日《关于数据科学竞赛的Tips》32页PPT的翻译与解读、大牛们对AI相关概念的定义daiding
ML之DS:2015年7月16日《关于数据科学竞赛的Tips》32页PPT的翻译与解读、大牛们对AI相关概念的定义daiding目录2015年7月16日《关于数据科学竞赛的Tips》32页PPT的翻译与解读2015年7月16日《关于数据科学竞赛的Tips》32页PPT的翻译与解读地址PPT地址:https://www.slideshare.net/OwenZhang2/tips-for-data-science-competitions?from_action=save时间原创 2019-02-20 10:00:46 · 10338 阅读 · 1 评论 -
IRC/ML:金融智能风控—信贷风控场景简介、两大场景(贷款场景+信用卡场景)、信用卡评分模型设计、反欺诈检测技术的简介、案例应用之详细攻略
IRC/ML:金融智能风控—信贷风控场景简介、两大场景(贷款场景+信用卡场景)、信用卡评分模型设计、反欺诈检测技术的简介、案例应用之详细攻略目录信贷风控简介信贷风控两大场景信用卡反欺诈检测的简介信贷风控简介简介银行的主要收入或者利润来源来自贷款和信用卡,简称信贷。贷款和信用卡,我们统称为信贷。他们都有着相似的风控逻辑。风控思路使用传统的评分卡模型、决策树、神经网络等算法,根据借款人的个人信息、信用记录、还款历史等因素,评估其信用风险和偿还能力。原创 2023-10-15 23:45:43 · 2154 阅读 · 0 评论 -
LLMs之BELLE:源码解读(generate_instruction.py文件)让大模型自动生成大量指令数据并避免生成重复内容—基于种子指令(175个种子任务)利用GPT-3循环来不断生成新的指令
LLMs之BELLE:源码解读(generate_instruction.py文件)让大模型自动生成大量指令数据并避免生成重复内容—基于种子指令(175个种子任务)利用GPT-3循环来不断生成新的指令集合(每次迭代中构建一批输入提示【自定义Prompt】+然后使用大模型生成更多指令数据)→并根据采用BM25相似度算法筛选出合适的指令→保存为json文件(后续用于NLP的训练与评估)目录源码解读(generate_instruction.py文件)让大模型自动生成大量指令数据并避免生成重复内容—原创 2023-10-10 20:48:17 · 963 阅读 · 0 评论 -
ML:结构化数据(文本/图像)计算相似度常用十类方法(余弦相似性、皮尔逊、闵可夫斯基距离/曼哈顿距离/欧氏距离/切比雪夫距离、马氏距离、汉明距离、编辑距离、杰卡德相似系数、相对熵/KL散度、Helli
ML:结构化数据(文本/图像)计算相似度常用十类方法(余弦相似性、皮尔逊、闵可夫斯基距离/曼哈顿距离/欧氏距离/切比雪夫距离、马氏距离、汉明距离、编辑距离、杰卡德相似系数、相对熵/KL散度、Hellinger距离、贝叶斯公式距离)简介、代码实现目录相似度相关文章ML之Hash_EditDistance&Hash_HammingDistance&Hog_HanMing&Cosin&SSIM:图片相似性判别—基于输入图片利用多种算法进行原创 2019-12-02 17:26:09 · 4323 阅读 · 1 评论 -
DS/ML:数据科学技术之常用的数据脱敏算法的简介(替换算法、脱敏算法、混淆算法、数据一致性算法)、应用案例之详细攻略
DS/ML:数据科学技术之常用的数据脱敏算法的简介(替换算法、脱敏算法、混淆算法、数据一致性算法)、应用案例之详细攻略目录常用的数据脱敏算法的简介数据脱敏算法的概述常用的数据脱敏算法的简介数据脱敏算法的概述替换算法替换算法(Substitution):最简单的方式,将敏感信息如手机号、姓名等换成其他值。>> 随机替换(Randomization):将原始数据按照一定规则进行随机替换,如随机生成一个与原始值有相同类型和长度的值进行替换。>> 伪造替换原创 2023-07-08 17:33:10 · 1531 阅读 · 0 评论 -
Math:P问题(多项式时间内可解决)、NP问题(多项式时间内验证)、NPC问题(可通过一个多项式时间算法转换为NP问题)、NP-Hard问题(两不知)的详解与区别之详细攻略
Math:P问题(多项式时间内可解决)、NP问题(多项式时间内验证)、NPC问题(可通过一个多项式时间算法转换为NP问题)、NP-Hard问题(两不知)的详解与区别之详细攻略目录P问题(多项式时间内可解决)、NP问题(多项式时间内验证)、NPC问题(可通过一个多项式时间算法转换为NP问题)、NP-Hard问题(两不知)的详解与区别问题复杂度多项式级的复杂度:一种是O(1),O(log(n)),O(na)等,我们把它叫做多项式级的复杂度,因为它的规模n出现在底数的位置;非多项式级复原创 2023-06-29 01:23:48 · 2420 阅读 · 0 评论 -
RL之Q-learning:基于交易金额历史数据利用强化学习算法采用两种方法(自定义Q-learning算法和基于gym库)实现欺诈检测之详细攻略
RL之Q-learning:基于交易金额历史数据利用强化学习算法采用两种方法(自定义Q-learning算法和基于gym库)实现欺诈检测之详细攻略目录基于交易金额历史数据利用强化学习算法采用两种方法(自定义Q-learning算法和基于gym库)实现欺诈检测基于交易金额历史数据利用强化学习算法采用两种方法(自定义Q-learning算法和基于gym库)实现欺诈检测# T1、自定义Q-learning算法对交易数据集进行训练,并进行模型推理# 1、定义数据集# 定义信用卡欺诈数据集原创 2018-06-25 20:18:28 · 823 阅读 · 0 评论 -
Paper:《Is GPT-4 a Good Data Analyst?GPT-4是一个好的数据分析师吗?》翻译与解读
Paper:《Is GPT-4 a Good Data Analyst?GPT-4是一个好的数据分析师吗?》翻译与解读目录《Is GPT-4 a Good Data Analyst?GPT-4是一个好的数据分析师吗?》翻译与解读Abstract摘要1、Introduction引言2、RelatedWork相关工作3、TaskDescription任务描述4、Our Framework我们的框架5、Experiments实验6、CaseSt原创 2023-05-30 01:13:22 · 2347 阅读 · 0 评论 -
Competition:Kaggle竞赛平台的简介(比赛任务/常用数据集)、使用方法(Kaggle上比赛操作流程案例)、比赛经验(案例理解)之详细攻略
Competition:Kaggle竞赛平台的简介(比赛任务/常用数据集)、使用方法(Kaggle上比赛操作流程案例)、比赛经验(案例理解)之详细攻略目录Kaggle竞赛平台的简介Kaggle竞赛平台的使用方法(了解如何在Kaggle上进行比赛)Kaggle竞赛平台的实战案例Kaggle竞赛平台的简介 Kaggle是一个知名的在线数据科学竞赛平台,吸引了全球的数据科学家和机器学习爱好者。Kaggle竞赛的特点是竞赛难度大、原创 2019-03-13 12:12:49 · 1396 阅读 · 1 评论 -
ML之XGBoost:基于泰坦尼克号数据集(填充/标签编码/推理数据再处理)利用XGBoost算法(json文件的模型导出和载入推理)实现二分类预测应用案例
ML之XGBoost:基于泰坦尼克号数据集(填充/标签编码/推理数据再处理)利用XGBoost算法(json文件的模型导出和载入推理)实现二分类预测应用案例目录基于泰坦尼克号数据集(独热编码/标签编码)利用XGBoost算法(json文件的模型导出和载入推理)实现二分类预测应用案例# 1、定义数据集# 2、数据预处理# 3、模型训练与评估# 4、模型推理基于泰坦尼克号数据集(独热编码/标签编码)利用XGBoost算法(json文件的模型导出和载入推原创 2023-05-24 21:44:13 · 1172 阅读 · 0 评论 -
Algorithm:【算法进阶之路】之算法面试刷题集合—数据结构知识和算法刷题及其平台、问题为导向的十大类刷题算法(数组和字符串、链表、栈和队列、二叉树、堆、图、哈希表、排序和搜索、回溯算法、枚举/递
Algorithm:【算法进阶之路】之算法面试刷题集合—数据结构知识和算法刷题及其平台、问题为导向的十大类刷题算法(数组和字符串、链表、栈和队列、二叉树、堆、图、哈希表、排序和搜索、回溯算法、枚举/递归/分治/动态规划/贪心算法)总结目录相关文章数据结构的最强学习路线之问题为导向的十大类刷题算法总结一、学习相关的讲解与刷题平台二、刷题集合三、常见的十大类考试题型相关文章DSt:数据结构的简介、最强学习路线(逻辑结构【数组原创 2023-04-22 23:36:17 · 1328 阅读 · 0 评论 -
DataScience:数据科学家必掌握知识之从数据结构→数据库→数据仓库→数据湖→数据中台→数据ETL技术的各个知识点的区别与总结
DataScience:数据科学家必掌握知识之从数据结构→数据库→数据仓库→数据湖→数据中台→数据ETL技术的各个知识点的区别与总结目录数据科学家必掌握知识之从数据结构→数据库→数据湖→数据中台各个知识点的区别与总结1、数据组织和存储方式2、数据管理和存储方式3、数据提取和使用技术数据科学家必掌握知识之从数据结构→数据库→数据湖→数据中台各个知识点的区别与总结1、数据组织和存储方式1.1、数据结构简介数据结构是组织和存储数据的方式。它定义了数据元素之间原创 2023-05-20 01:17:24 · 1045 阅读 · 0 评论 -
ML:MetaCost算法(代价敏感学习/分类任务中的不平衡数据集)的简介(调整少样本权重)、使用方法、案例应用之详细攻略
ML:MetaCost算法(代价敏感学习/分类任务中的不平衡数据集)的简介(调整少样本权重)、使用方法、案例应用之详细攻略目录MetaCost算法的简介MetaCost算法的案例应用MetaCost算法的简介MetaCost算法(代价敏感学习/分类任务中的不平衡数据集)的概述:基分类器训练→计算错误代价→训练元模型→预测与调整痛点 一般决策树算法更偏重于大类,追求总的分类准确率。而MetaCost认为应该考虑每个类的分类效果,而不是总的分类效果,主要是因为每个类别被误分类的代价原创 2023-04-22 23:35:22 · 1747 阅读 · 0 评论 -
DS:基于鸢尾花数据集利用多种数据降维技术(PCA、SVD、MDS、LDA、T-SNE)实现三维可视化
DS:基于鸢尾花数据集利用多种数据降维技术(PCA、SVD、MDS、LDA、T-SNE)实现三维可视化目录基于鸢尾花数据集利用多种数据降维技术(PCA、SVD、MDS、LDA、T-SNE)实现三维可视化# 1、加载示例数据集(鸢尾花数据集)# 2、数据预处理# 3、三维图可视化基于鸢尾花数据集利用多种数据降维技术(PCA、SVD、MDS、LDA、T-SNE)实现三维可视化# 1、加载示例数据集(鸢尾花数据集)X_arr (150, 4) [[5.1原创 2023-05-19 00:29:17 · 1305 阅读 · 0 评论 -
DS之MDS:MDS(Multidimensional Scaling)多维尺度降维算法的简介、使用方法、案例应用之详细攻略
DS之MDS:MDS(Multidimensional Scaling)多维尺度降维算法的简介、使用方法、案例应用之详细攻略目录MDS的简介MDS的案例应用MDS的简介MDS(Multidimensional Scaling)降维算法的概述简介多维尺度(Multidimensional scaling,缩写MDS,又译“多维标度”)也称作“相似度结构分析”(Similarity structure analysis),属于多重变量分析的方法之一,是社会学、数量心理学、市场营销等原创 2023-04-22 23:33:15 · 1606 阅读 · 0 评论 -
ML之VAR:基于上海最高气温数据集利用时间序列模型之VAR向量自回归模型/多变量自回归模型实现回归预测案例
ML之VAR:基于上海最高气温数据集利用时间序列模型之VAR向量自回归模型/多变量自回归模型实现回归预测案例目录基于上海最高气温数据集利用时间序列模型之VAR向量自回归模型/多变量自回归模型实现回归预测案例# 1、定义数据集# 2、数据集预处理# 3、模型训练与评估基于上海最高气温数据集利用时间序列模型之VAR向量自回归模型/多变量自回归模型实现回归预测案例# 1、定义数据集 week max_temperature ... air_原创 2023-05-16 22:32:52 · 1425 阅读 · 0 评论 -
Algorithm:【算法进阶之路】之算法面试刷题集合—十大经典排序算法(简单插入排序/希尔排序、选择排序/堆排序、冒泡排序/快速排序、归并排序、计数排序/桶排序/基数排序)动态图文讲解及其代码实现
Algorithm:【算法进阶之路】之算法面试刷题集合—十大经典排序算法(简单插入排序/希尔排序、选择排序/堆排序、冒泡排序/快速排序、归并排序、计数排序/桶排序/基数排序)动态图文讲解及其代码实现目录相关文章排序算法思维导图十大算法复杂度、稳定性比较十大排序算法相关文章DSt:数据结构的简介、最强学习路线(逻辑结构【数组-链表-栈和队列/树-图-哈希】、物理结构【元素/关系】、数据运算【十大排序/四大查找-图三大搜索-树三大遍历】原创 2018-05-21 19:28:10 · 45002 阅读 · 4 评论 -
ML之FE:基于自定义数据集进行对比标准化处理和归一化处理、自定义标签编码(二类编码和三类编码)、自动标签编码实现代码
ML之FE:基于自定义数据集进行对比标准化处理和归一化处理、自定义标签编码(二类编码和三类编码)、自动标签编码实现代码目录基于自定义数据集进行对比标准化处理和归一化处理、自定义标签编码(二类编码和三类编码)、自动标签编码基于自定义数据集进行对比标准化处理和归一化处理、自定义标签编码(二类编码和三类编码)、自动标签编码实现代码# encoding: utf-8import pandas as pdimport numpy as npnp.random.seed(123)im原创 2023-05-15 21:38:47 · 849 阅读 · 0 评论 -
ML之FE:利用pandas库衡量两个特征间的各种关系指标集合(Pearson相关系数(仅线性相关)、kendall相关系数、Spearman秩相关系数)实现代码
ML之FE:利用pandas库衡量两个特征间的各种关系指标集合(Pearson相关系数(仅线性相关)、kendall相关系数、Spearman秩相关系数)实现代码目录利用pandas库衡量两个特征间的各种关系指标集合(Pearson相关系数(仅线性相关)、kendall相关系数、Spearman秩相关系数)利用pandas库衡量两个特征间的各种关系指标集合(Pearson相关系数(仅线性相关)、kendall相关系数、Spearman秩相关系数)实现代码# ML之FE:利用panda原创 2023-05-15 21:38:33 · 882 阅读 · 0 评论 -
DS/ML:模型全流程优化之系统优化—替代Pandas库的大数据高效处理技术优化集合如HDF5技术(压缩文件)+vaex库(内存映射)+dask库(集群技术)替代pandas的各自骚操作实现代码
DS/ML:模型全流程优化之系统优化—替代Pandas库的大数据高效处理技术优化集合如HDF5技术(压缩文件)+vaex库(内存映射)+dask库(集群技术)替代pandas的各自骚操作实现代码目录模型全流程优化之系统优化—替代Pandas库的大数据高效处理技术优化集合如HDF5技术(压缩文件)+vaex库(内存映射)+dask库(集群技术)替代pandas的各自骚操作设计思路# 一、利用Vaex读取将CSV转为HDF5的文件(压缩文件)#二、利用dask高效读原创 2023-05-15 21:40:14 · 1107 阅读 · 0 评论 -
ML之Tree:树类模型的简介、决策树模型常见分类(CART、ID3、C4.5)、【数值型】特征中“离散型”特征和“连续型”特征的处理区别、树类模型处理【类别型】特征的两种策略及其代码实战
ML之Tree:树类模型的简介、决策树模型常见分类(CART、ID3、C4.5)、【数值型】特征中“离散型”特征和“连续型”特征的处理区别、树类模型处理【类别型】特征的两种策略及其代码实战目录相关文章树类模型的简介理论分析:决策树模型本身的内部结构是对【数值型】特征中的“连续型”特征和“离散型”特征的处理简介案例实战:树类模型处理【类别型】特征的两种策略相关文章ML:机器学习中有监督学习算法的四种最基础模型的简介(基于概率的模型、线性模原创 2023-05-12 00:53:20 · 2019 阅读 · 0 评论 -
ML:基于泰坦尼克号数据集利用多种树类算法(独热编码/标签编码+DT/RF/XGBoost/LightGBM/CatBoost+主要探究各算法对【类别型】特征的处理)进行交叉验证训练并对比模型性能
ML:基于泰坦尼克号数据集利用多种树类算法(独热编码/标签编码+DT/RF/XGBoost/LightGBM/CatBoost+主要探究各算法对【类别型】特征的处理)进行交叉验证训练并对比模型性能目录基于泰坦尼克号数据集利用多种树类算法(独热编码/标签编码+DT/RF/XGBoost/LightGBM/CatBoost+主要探究各算法对【类别型】特征的处理)进行交叉验证训练并对比模型性能# 1、定义数据集# 2、数据预处理# 3、模型训练与验证# T1、模型交叉验证并原创 2023-05-11 23:39:30 · 1432 阅读 · 0 评论 -
ML之FE:基于波士顿房价数据集利用LightGBM算法进行模型预测然后通过3σ原则法(计算残差标准差)寻找测试集中的异常值/异常样本
ML之FE:基于波士顿房价数据集利用LightGBM算法进行模型预测然后通过3σ原则法(计算残差标准差)寻找测试集中的异常值/异常样本目录基于波士顿房价数据集利用LiR和LightGBM算法进行模型预测然后通过3σ原则法(计算残差标准差)寻找测试集中的异常值# 1、定义数据集# 2、数据预处理/特征工程# 3、模型训练与预测# 4、利用3σ原则寻找测试集中的异常值相关文章ML之FE:基于波士顿房价数据集利用LightGBM算法进行模型预测然后通过3σ原则法原创 2023-05-10 23:18:15 · 1521 阅读 · 0 评论 -
ML之FE:在机器学习领域,常见的机器学习算法各自对【数值型】特征和【类别型】特征的处理技巧总结以及有哪些算法喜欢高斯分布类型的数据
ML之FE:在机器学习领域,常见的机器学习算法各自对【数值型】特征和【类别型】特征的处理技巧总结以及有哪些算法喜欢高斯分布类型的数据目录常见的机器学习算法各自对【数值型】特征和【类别型】特征的处理技巧总结适合高斯分布类型的数据的算法及其原因简介常见的机器学习算法各自对【数值型】特征和【类别型】特征的处理技巧总结【数值型】特征【类别型】特征NB必须要求特征之间相互独立(1)、如果特征间存在强相关性,需要提前进行降维处理独热编码处理LiR/L原创 2023-05-10 23:18:08 · 1178 阅读 · 0 评论 -
DS/ML:数据科学技术之数据科学生命周期(四大层次+机器学习六大阶段+数据挖掘【5+6+6+4+4+1】步骤)的全流程最强学习路线讲解之详细攻略
DS/ML:数据科学技术之数据科学生命周期(四大层次+机器学习六大阶段+数据挖掘【5+6+6+4+4+1】步骤)的全流程最强学习路线讲解之详细攻略目录相关文章零、数据科学生命周期一、问题抽象与理解→定义问题二、数据认知→数据收集三、机器学习领域六大阶段详解四、分析+决策+执行相关文章DS/ML:数据科学技术之数据科学生命周期(四大层次+机器学习六大阶段+数据挖掘【5+6+6+4+4+1】步骤)的全流程最强学习路线讲原创 2023-05-10 01:40:18 · 2182 阅读 · 1 评论 -
DataScience:数据不均衡-数据采样之重采样方法的简介(升采样【SRO/SMOTE/AdaSyn】、降采样【TomekLink】、组合采样【SMOTE+TomekLink】)之详细攻略
DataScience:数据不均衡-数据采样之重采样方法的简介(升采样【SRO/SMOTE/AdaSyn】、降采样【TomekLink】、组合采样【SMOTE+TomekLink】)之详细攻略目录重采样方法的简介重采样方法的简介0、各自对比:过采样(增加噪声/过拟合)、欠采样(损失信息)、组合抽样(优秀)过采样(oversampling)和欠采样(undersampling)是处理不平衡数据集问题的两种基本方法。上采样/过采样下采样/欠采样组合抽样简介原创 2023-03-21 22:13:47 · 1650 阅读 · 0 评论 -
ML之EasyEnsemble:EasyEnsemble算法(基于随机欠采样的集成学习算法)的简介、案例应用之详细攻略
ML之EasyEnsemble:EasyEnsemble算法(基于随机欠采样的集成学习算法)的简介、案例应用之详细攻略目录EasyEnsemble集成学习算法的简介1、EasyEnsemble算法(基于随机欠采样的集成学习算法)的概述2、EasyEnsemble算法对比Bagging算法EasyEnsemble集成学习算法的案例应用EasyEnsemble集成学习算法的简介1、EasyEnsemble算法(基于随机欠采样的集成学习算法)的概述简介EasyEns原创 2020-08-25 20:08:05 · 1245 阅读 · 0 评论 -
DS:Gibbs Gauss采样的简介、实现代码之详细攻略
DS:Gibbs Gauss采样的简介、实现代码之详细攻略目录Gibbs Gauss采样的简介Gibbs Gauss采样的案例应用Gibbs Gauss采样的简介 Gibbs采样在高维分布中的效率较高,而且易于实现。其中一种常见的Gibbs采样算法是Gibbs Gauss采样(Gibbs sampling for Gaussian distributions),它主要用于从多元高斯分布中采样样本。 在Gibbs Gauss采样中,假设我们要从一个$n$维原创 2018-08-27 16:37:51 · 13741 阅读 · 1 评论 -
Py之imbalanced-ensemble:imbalanced-ensemble库的简介、安装、使用方法之详细攻略
Py之imbalanced-ensemble:imbalanced-ensemble库的简介、安装、使用方法之详细攻略目录imbalanced-ensemble库的简介imbalanced-ensemble库的安装imbalanced-ensemble库的使用方法imbalanced-ensemble库的简介 imbalanced-ensemble是一个用于处理不平衡数据集的 Python 库,它提供了一系列的机器学习方法和工具来解决不平衡数据集问题。该库旨在通过结合多原创 2023-05-09 21:03:35 · 1379 阅读 · 0 评论 -
ML之LoR:基于泰坦尼克号数据集分别利用Platt校准和等距回归校准算法实现概率校准进而提高二元分类模型的预测准确性(模型提效)应用案例
ML之LoR:基于泰坦尼克号数据集分别利用Platt校准和等距回归校准算法实现概率校准进而提高二元分类模型的预测准确性(模型提效)应用案例目录基于泰坦尼克号数据集分别利用Platt校准和等距回归校准算法实现概率校准进而提高二元分类模型的预测准确性(模型提效)应用案例# 1、定义数据集# 2、数据预处理/特征工程# 3、模型训练与评估相关文章ML之LoR:基于泰坦尼克号数据集分别利用Platt校准和等距回归校准算法实现概率校准进而提高二元分原创 2023-05-15 21:39:49 · 1173 阅读 · 1 评论 -
ML:机器学习模型提效之监督学习中概率校准的简介、案例应用之详细攻略
ML:机器学习模型提效之监督学习中概率校准的简介、案例应用之详细攻略目录监督学习中概率校准的简介监督学习中概率校准的案例应用监督学习中概率校准的简介监督学习中概率校准的概述背景分类器输出的概率通常不一定准确地反映真实的类别概率分布,导致在一些应用中出现问题。以二元分类为例,如果使用逻辑回归进行分类,那么输出的是一个实数值,表示为正例的概率。然而,这个概率并不一定准确,因为它不一定与实际标签的概率匹配。例如,在二元分类任务中,概率值为0.8的样本通常被认为比概率值为0.原创 2023-05-09 00:05:37 · 1178 阅读 · 0 评论 -
ML:机器学习算法中—基于实例的学习算法(惰性学习算法)和基于模型的学习算法的简介、案例应用之详细攻略
ML:机器学习算法中—基于实例的学习算法(惰性学习算法)和基于模型的学习算法的简介、案例应用之详细攻略目录基于实例的学习算法(惰性学习算法)VS基于模型的学习算法基于实例的学习算法(惰性学习算法)和基于模型的学习算法的简介基于实例的学习算法(惰性学习算法)基于模型的学习算法简介基于实例的学习算法(Instance-based Learning),也称为惰性学习算法(Lazy Learning),因为它们将归纳或泛化过程推迟到进行分类时再进行。这些算法原创 2023-05-09 00:02:52 · 948 阅读 · 0 评论 -
ML:机器学习算法中模型分类期望误差(偏差+方差)的简介及其解决方法、使用方法之详细攻略
ML:机器学习算法中模型分类期望误差(偏差+方差)的简介及其解决方法、使用方法之详细攻略目录机器学习算法中模型分类期望误差(偏差+方差)的简介及其解决方法机器学习算法中偏差(匹配程度+拟合能力)和方差(波动程度+泛化能力)的概述机器学习算法中模型分类期望误差(偏差+方差)的使用方法机器学习算法中模型分类期望误差(偏差+方差)的简介及其解决方法机器学习算法中偏差(匹配程度+拟合能力)和方差(波动程度+泛化能力)的概述机器学习算法中,将模型分类错误的期望error分解原创 2023-05-08 23:59:55 · 1565 阅读 · 0 评论 -
DS-AD:数据科学与敏捷开发(Agile Development)的关系简介、常用方法(Scrum中的回顾会议/DAC设计思想/TDD开发思想)、实战总结之详细攻略
DS-AD:数据科学与敏捷开发(Agile Development)的关系简介、常用方法(Scrum中的回顾会议/DAC设计思想/TDD开发思想)、实战总结之详细攻略目录数据科学与敏捷开发(Agile Development)的关系简介数据科学与敏捷开发的常用方法(Scrum中的回顾会议/DAC设计思想/TDD开发思想)数据科学与敏捷开发(Agile Development)的关系简介1、敏捷开发和数据科学能否很好地结合在一起?简介敏捷不仅仅为软件开发人员保留。虽然这些有原创 2023-05-08 23:50:08 · 920 阅读 · 0 评论