
ML
文章平均质量分 74
一个处女座的程序猿
人工智能硕博生,拥有十多项发明专利(6项)和软著(9项),包括国际期刊SCI内多篇论文,多个国家级证书(2个国三级、3个国四级),曾获国内外“人工智能算法”竞赛(包括国家级省市级等,一等奖5项、二等奖4项、三等奖2项)证书十多项,以上均以第一作者身份,并拥有省市校级个人荣誉证书十多项。目前也是国内知名博主,连续3年获CSDN十大博客之星,荣获达摩院评测官、阿里社区/CSDN社区/51CTO/华为社区等十多个开发者社区专家博主荣誉,曾受邀阿里/华为/谷歌等社区采访-评审-论坛几十次。截止2022年,AI领域粉丝超100万,文章阅读量超5000万。正在撰写《AI算法最新实战》一书,目前已30万字
展开
-
ML之LiR:机器学习经典算法之线性回归算法LiR的简介、使用方法、代码实现、经典案例之详细攻略
ML之LiR:机器学习经典算法之线性回归算法LiR的简介、使用方法、代码实现、经典案例之详细攻略目录线性回归算法LiR的简介线性回归算法LiR的使用方法线性回归算法LiR的经典案例线性回归算法LiR的简介 线性回归方程是利用数理统计中的回归分析,来确定两种或两种以上变数间相互依赖的定量关系的一种统计分析方法之一。线性回归也是回归分析中第一种经过严格研究并在实际应用中广泛使用的类型。按自变量个数可分为一元线性回归分析方程和多元线性回归分析方程。原创 2018-01-25 22:09:19 · 9789 阅读 · 2 评论 -
ML之DT:基于决策树模型对iris鸢尾花数据集利用交叉验证训练并可视化的训练集和测试集的学习曲线进而判断拟合状态(过拟合/欠拟合)
ML之DT:基于决策树模型对iris鸢尾花数据集利用交叉验证训练并可视化的训练集和测试集的学习曲线进而判断拟合状态(过拟合/欠拟合)目录基于决策树模型对iris鸢尾花数据集利用交叉验证训练并可视化的训练集和测试集的学习曲线进而判断拟合状态(过拟合/欠拟合)基于决策树模型对iris鸢尾花数据集利用交叉验证训练并可视化的训练集和测试集的学习曲线进而判断拟合状态(过拟合/欠拟合)输出结果实现代码# ML之DT:基于决策树模型对iris鸢尾花数据集利用交叉验证训练并可视化的训练集原创 2023-12-02 00:06:37 · 649 阅读 · 0 评论 -
NLP之TM:Topic Model(LDA等)的简介、使用方法、案例应用之详细攻略
NLP之TM:Topic Model(LDA等)的简介、使用方法、案例应用之详细攻略目录Topic Model的简介Topic Model的案例应用Topic Model的简介1、Topic Model的概述(两个假设)简介主题模型(Topic Model,TM)是一类用于从文本中抽取主题结构的统计模型。它的核心思想是,文档中的词汇可以由一组主题生成,而每个主题又由一组单词构成。通过对文档-主题和主题-单词分布进行建模,可以揭示文本背后的主题结构。TM是原创 2019-08-28 20:02:23 · 913 阅读 · 1 评论 -
ML之DictVectorizer:利用DictVectorizer函数对dataframe格式所有类型特征实现数据向量化(数值化)同时处理【类别型】特征(本质是OneHot处理)和【数值型】特征(不
ML之DictVectorizer:利用DictVectorizer函数对dataframe格式所有类型特征实现数据向量化(数值化)同时处理【类别型】特征(本质是OneHot处理)和【数值型】特征(不经过任何处理)代码实战目录利用DictVectorizer函数对dataframe格式所有类型特征实现数据向量化(数值化)同时处理【类别型】特征(本质是OneHot处理)和【数值型】特征(不经过任何处理)代码实战利用DictVectorizer函数对dataframe格式所有类型特征实现数据原创 2023-11-28 00:55:53 · 791 阅读 · 0 评论 -
Py之PySyft:Syft的简介、安装、使用方法之详细攻略
Py之PySyft:Syft的简介、安装、使用方法之详细攻略目录PySyft的简介PySyft的安装PySyft的使用方法PySyft的简介PySyft是一个开源库,在Python中提供安全和私有的深度学习。文档:PySyft’s documentation — PySyft documentationPySyft的安装pip install -i https://pypi.tuna.tsinghua.edu.cn/simple syft更新了一大堆包,太多了也…原创 2023-11-17 01:38:14 · 940 阅读 · 0 评论 -
MLOPS:最佳的机器学习模型监控工具的简介及其对比(Neptune/Arize AI/WhyLabs/Prometheus和Grafana/Evidently/Qualdo/Fiddler/Sage
MLOPS:最佳的机器学习模型监控工具的简介及其对比(Neptune/Arize AI/WhyLabs/Prometheus和Grafana/Evidently/Qualdo/Fiddler/SageMaker Model Monitor/Seldon Core/Censius)目录最佳的机器学习模型监控工具的简介及其对比如何比较机器学习模型监控工具结论最佳的机器学习模型监控工具的简介及其对比地址文章原始地址:Best T原创 2023-11-15 23:33:11 · 1203 阅读 · 0 评论 -
AI:人工智能的简介之AI领域基础概念术语解释之《Google发布机器学习术语表 (中英对照)》、机器学习、深度学习、数据挖掘中常见关键词、参数等5000多个单词中英文对照(绝对干货)
AI:人工智能的简介之AI领域基础概念术语解释之《Google发布机器学习术语表 (中英对照)》、机器学习、深度学习、数据挖掘中常见关键词、参数等5000多个单词中英文对照(绝对干货)目录机器学习术语表原创 2018-04-22 10:55:07 · 11857 阅读 · 1 评论 -
IRC/ML:金融智能风控—信贷风控场景简介、两大场景(贷款场景+信用卡场景)、信用卡评分模型设计、反欺诈检测技术的简介、案例应用之详细攻略
IRC/ML:金融智能风控—信贷风控场景简介、两大场景(贷款场景+信用卡场景)、信用卡评分模型设计、反欺诈检测技术的简介、案例应用之详细攻略目录信贷风控简介信贷风控两大场景信用卡反欺诈检测的简介信贷风控简介简介银行的主要收入或者利润来源来自贷款和信用卡,简称信贷。贷款和信用卡,我们统称为信贷。他们都有着相似的风控逻辑。风控思路使用传统的评分卡模型、决策树、神经网络等算法,根据借款人的个人信息、信用记录、还款历史等因素,评估其信用风险和偿还能力。原创 2023-10-15 23:45:43 · 1922 阅读 · 0 评论 -
MLOPS:机器学习算法领域之工程化五大核心技术之模型监控的简介(2大原则/5+1监控内容)、模型稳定性(两大算法策略)、智能风控场景的模型监控、三大类监控工具(ML框架/ML专用/通用监控工具)之详
MLOPS:机器学习算法领域之工程化五大核心技术之模型监控的简介(2大原则/5+1监控内容)、模型稳定性(两大算法策略)、智能风控场景的模型监控、三大类监控工具(ML框架/ML专用/通用监控工具)之详细攻略目录模型监控的简介模型监控的具体场景实战三大类监控工具:ML框架/ML专用/通用监控工具模型监控的简介1、模型监控的概述(2大原则/5+1监控内容/三大类监控工具)背景当特征数据存在问题时,模型的预测结果会受到影响,甚至可能导致模型失效。模型迭原创 2023-10-15 23:41:28 · 776 阅读 · 0 评论 -
MLOPS:大数据/服务器下的大规模机器学习技术—流水线处理技术的简介(标准化/自动化/可复用化)、常用框架(Pipeline/TFX、Airflow/Beam/Kubeflow/MLflow、Fli
MLOPS:大数据/服务器下的大规模机器学习技术—流水线处理技术的简介(标准化/自动化/可复用化)、常用框架(Pipeline/TFX、Airflow/Beam/Kubeflow/MLflow、Flink/Kafka)之详细攻略目录流水线处理技术的简介流水线处理技术的常用框架和工具流水线处理技术的实战案例流水线处理技术的简介1、流水线处理技术的概述(标准化/自动化/可复用化)简介流水线处理技术是指将一系列的数据处理操作组合成一个处理流程,以完成一个特定的任务原创 2023-10-08 23:58:01 · 902 阅读 · 0 评论 -
NLP:利用spacy的en_core_web_sm预训练语言模型通过对文本数据的依存分析法(主谓宾/语法树结构)实现将大量的文本数据转化为结构化数据应用案例实现代码
NLP:利用spacy的en_core_web_sm预训练语言模型通过对文本数据的依存分析法(主谓宾/语法树结构)实现将大量的文本数据转化为结构化数据应用案例实现代码目录利用spacy的en_core_web_sm预训练语言模型通过对文本数据的依存分析法(主谓宾/语法树结构)实现将大量的文本数据转化为结构化数据应用案例# 1、定义文本数据# 2、基于进行依存分析实现代码利用spacy的en_core_web_sm预训练语言模型通过对文本数据的依存分析法(主谓宾/语法树结构原创 2023-09-17 23:37:33 · 895 阅读 · 0 评论 -
NLP之NLTK:对文本进行预处理操作(利用jieba分词+合并+利用re去掉标点符号和空格+去重+利用nltk词性标注并转为字典、特征编码并存为字典、标签编码并存为字典)实现实际样本特征编码、实际样
NLP:对文本进行预处理操作(利用jieba分词+合并+利用re去掉标点符号和空格+去重+利用nltk词性标注并转为字典、特征编码并存为字典、标签编码并存为字典)实现实际样本特征编码、实际样本标签编码应用案例。原创 2023-09-17 23:34:54 · 969 阅读 · 0 评论 -
ML之MetaCost:基于泰坦尼克号数据集(独热编码/标签编码)利用MetaCost算法(DT+LiR,基分类器训练→计算错误代价→训练元模型→预测与调整)实现二分类预测应用案例
ML之MetaCost:基于泰坦尼克号数据集(独热编码/标签编码)利用MetaCost算法(DT+LiR,基分类器训练→计算错误代价→训练元模型→预测与调整)实现二分类预测应用案例目录基于泰坦尼克号数据集(独热编码/标签编码)利用MetaCost算法(DT+LiR,基分类器训练→计算错误代价→训练元模型→预测与调整)实现二分类预测应用案例# 1、定义数据集# 2、数据预处理# 3、模型训练与评估# 4、基于base_classifier利用MetaCost算法实现原创 2023-09-17 23:31:22 · 554 阅读 · 0 评论 -
XAI之EBM:基于泰坦尼克数据集利用EBM算法(interpret库)实现可解释性(可视化EBM模型及其决策过程+局部解释+全局解释)之详细攻略
其中包括了每个特征的重要性和对模型预测的影响。原创 2023-09-17 23:29:34 · 846 阅读 · 0 评论 -
ML+LLMs:利用LLMs大语言模型赋能或者结合ML机器学习算法进行具体应用的简介、具体案例之详细攻略
ML+LLMs:利用LLMs大语言模型赋能或者结合ML机器学习算法进行具体应用的简介、具体案例之详细攻略目录利用LLMs赋能或者结合ML算法进行具体应用的简介1、概述:数据增强/特征工程/过程优化/结果解释/聚类分析/信息检索利用LLMs赋能或者结合ML算法进行具体应用的具体案例利用LLMs赋能或者结合ML算法进行具体应用的简介1、概述:数据增强/特征工程/过程优化/结果解释/聚类分析/信息检索数据增强利用LLMs的文本生成能力,生成大规模的合成文本数据,用于原创 2023-09-05 20:16:36 · 1267 阅读 · 0 评论 -
ML之FE:机器学习算法建模中的特征穿越/数据泄露的简介、常见案例、解决方法之详细攻略
ML之FE:机器学习算法建模中的特征穿越/数据泄露的简介、常见案例、解决方法之详细攻略目录相关文章特征穿越/数据泄露的简介数据泄露常见案例特征穿越常见案例及其解决办法相关文章ML之FE:机器学习算法建模中的特征穿越/数据泄露的简介、常见案例、解决方法之详细攻略https://yunyaniu.blog.csdn.net/article/details/132633981MLOPS:数据科学/机器学习算法领域之工程化五大核心技术—模型部署与监原创 2023-09-02 07:09:44 · 1469 阅读 · 0 评论 -
ML:机器学习中有监督学习算法的四种最基础模型的简介(基于概率的模型、线性模型、树模型-树类模型、神经网络模型)、【线性模型/非线性模型、树类模型/基于样本距离的模型】多种对比(假设/特点/决策形式等
ML:机器学习中有监督学习算法的四种最基础模型的简介(基于概率的模型、线性模型、树模型-树类模型、神经网络模型)、【线性模型/非线性模型、树类模型/基于样本距离的模型】多种对比(假设/特点/决策形式等)目录机器学习中有监督学习算法的四种基础的模型形式(基于概率模型、线性模型、树类模型、神经网络模型)的简介多种模型算法分类并对比机器学习中有监督学习算法的四种基础的模型形式(基于概率模型、线性模型、树类模型、神经网络模型)的简介多种模型算法分类并对比1、两种最基础的模型原创 2023-09-02 07:04:39 · 1407 阅读 · 0 评论 -
LLMs:LLMs大语言模型评估的简介(两标+六性+九维,大模型排行榜多种),两类基准—通用任务的基准(单任务【BLEU/ROUGE-MT-Bench/Chatbot Arena】、多任务【Super
LLMs:LLMs大语言模型评估的简介(两标(NLUGR指标/REBT)+六性(理解性+生成性+多样性+泛化性+能耗性+可解释性)+九维(2大能力域【理解/生成】+3性【丰富性/多样性/适应性】+4大子任务【逻辑推理/问题解决/对和聊天/情感分析】),大模型排行榜多种),两类基准——通用任务的基准(单任务【BLEU/ROUGE-MT-Bench/Chatbot Arena】、多任务【SuperGLUE/MMLU/BIG-bench/HELM/AGIEval/C-EVAL/Xiezhi】、基于工具【API原创 2023-07-30 22:46:06 · 1969 阅读 · 0 评论 -
ML:结构化数据(文本/图像)计算相似度常用十类方法(余弦相似性、皮尔逊、闵可夫斯基距离/曼哈顿距离/欧氏距离/切比雪夫距离、马氏距离、汉明距离、编辑距离、杰卡德相似系数、相对熵/KL散度、Helli
ML:结构化数据(文本/图像)计算相似度常用十类方法(余弦相似性、皮尔逊、闵可夫斯基距离/曼哈顿距离/欧氏距离/切比雪夫距离、马氏距离、汉明距离、编辑距离、杰卡德相似系数、相对熵/KL散度、Hellinger距离、贝叶斯公式距离)简介、代码实现目录相似度相关文章ML之Hash_EditDistance&Hash_HammingDistance&Hog_HanMing&Cosin&SSIM:图片相似性判别—基于输入图片利用多种算法进行原创 2019-12-02 17:26:09 · 3953 阅读 · 1 评论 -
IRC/ML:金融智能风控领域相关术语解释(黑灰产群控、风控指标/字段、口径逻辑)、金融智能风控领域九大场景之详细攻略
IRC/ML:金融智能风控领域相关术语解释(黑灰产群控、风控指标/字段、口径逻辑)、金融智能风控领域九大场景之详细攻略目录金融智能风控领域的相关术语风控指标/字段相关概念、口径逻辑金融智能风控领域九大场景金融智能风控领域的相关术语1、如何判断黑灰产群控T1、手机电量判定:一般判断手机电量是否一直是100%,如果手机电量一直100%,那就是碰到了群控的。T2、手机定位判定:或者看是否设备的方位在动,如果设备长期不动,也是遇到了群控。T3、图算法关原创 2022-06-10 18:00:00 · 1980 阅读 · 0 评论 -
Math:P问题(多项式时间内可解决)、NP问题(多项式时间内验证)、NPC问题(可通过一个多项式时间算法转换为NP问题)、NP-Hard问题(两不知)的详解与区别之详细攻略
Math:P问题(多项式时间内可解决)、NP问题(多项式时间内验证)、NPC问题(可通过一个多项式时间算法转换为NP问题)、NP-Hard问题(两不知)的详解与区别之详细攻略目录P问题(多项式时间内可解决)、NP问题(多项式时间内验证)、NPC问题(可通过一个多项式时间算法转换为NP问题)、NP-Hard问题(两不知)的详解与区别问题复杂度多项式级的复杂度:一种是O(1),O(log(n)),O(na)等,我们把它叫做多项式级的复杂度,因为它的规模n出现在底数的位置;非多项式级复原创 2023-06-29 01:23:48 · 1704 阅读 · 0 评论 -
ML:结构化数据(文本/图像)计算相似度常用十类方法之余弦相似性计算的三种python代码实现
ML:结构化数据(文本/图像)计算相似度常用十类方法之余弦相似性计算的三种python代码实现目录相似度计算之余弦相似度计算相似度计算之余弦相似度计算输出结果Cosine_SimilarityDIY,计算余弦相似度:0.8660254037844387Cosine_SimilarityBydot,计算余弦相似度:0.8660254037844387Cosine_SimilarityBydot,计算余弦相似度:0.8660254037844387三种python代码实原创 2023-06-12 02:12:43 · 1253 阅读 · 0 评论 -
LLMs之LLaMA:在单机CPU+Windows系统上对LLaMA模型(基于facebookresearch的GitHub)进行模型部署且实现模型推理全流程步骤【部署conda环境+安装依赖库+下载
LLMs之LLaMA:在单机CPU+Windows系统上对LLaMA模型(基于facebookresearch的GitHub)进行模型部署且实现模型推理全流程步骤【部署conda环境+安装依赖库+下载模型权重(国内外各种链接)→模型推理】的图文教程(非常详细)目录在Windows环境下的安装部署LLaMA教程0、源自facebookresearch的GitHub链接安装llama1、创建专用的conda环境2、安装依赖库3、下载模型权重4、模型推理在Windows环境下的原创 2023-06-01 00:32:17 · 774 阅读 · 0 评论 -
MLOPS:数据科学/机器学习算法领域之工程化五大核心技术—模型部署实战之利用Docker在服务器上部署模型文件+Flask创建REST API实现服务(八大步骤/一键部署自动化脚本代码)之详细攻略
MLOPS:数据科学/机器学习算法领域之工程化五大核心技术—模型部署实战之利用Docker在服务器上部署模型文件+Flask创建REST API实现服务(八大步骤/一键部署自动化脚本代码)之详细攻略目录一、业务需求简介二、详细流程—使用Docker容器在服务器上部署机器学习管道的八大步骤三、自动化部署的相关代码(shell脚本、python代码)一、业务需求简介基于重症疾病预测数据集利用最先进算法实现是否患病预测,并写出一个shell脚本,将机原创 2023-05-30 21:05:51 · 1134 阅读 · 0 评论 -
ML之ARM:基于购物篮数据分别利用Apriori算法和FP-growth算法(mlxtend框架+对比效果)获取强关联规则并根据某用户历史购买记录来推荐(基于置信度等指标)用户可能感兴趣的产品案例
ML之ARM:基于购物篮数据分别利用Apriori算法和FP-growth算法(mlxtend框架+对比效果)获取强关联规则并根据某用户历史购买记录来推荐(基于置信度等指标)用户可能感兴趣的产品案例目录基于购物篮数据分别利用Apriori算法和FP-growth算法(对比效果)获取强关联规则并根据某用户历史购买记录来推荐(基于置信度等指标)用户可能感兴趣的产品# 1、定义数据集# 2、数据预处理# 3、模型挖掘与评估# 4、模型推荐实现代码基于购物篮原创 2023-05-29 21:26:06 · 249 阅读 · 0 评论 -
DS/ML:数据科学技术之机器学习领域六大阶段最强学习路线之模型发布、部署与监控——模型发布的简介、模型七种发布策略(Big Bang发布/增量发布/滚动发布/蓝绿部署、Canary、Grey 、A/
DS/ML:数据科学技术之机器学习领域六大阶段最强学习路线之模型发布、部署与监控——模型发布的简介、模型七种发布策略(Big Bang发布/增量发布/滚动发布/蓝绿部署、Canary、Grey 、A/B)之详细攻略目录5.1、模型发布——关注将模型从训练环境发布到生产环境中5.1、模型发布——关注将模型从训练环境发布到生产环境中5.1.1、模型发布的概述简介模型发布是指将训练完成的机器学习模型应用到实际生产环境中,以解决实际业务问题并实现模型的实时效果。五大内容模原创 2023-05-25 00:40:19 · 734 阅读 · 0 评论 -
ML之XGBoost:基于泰坦尼克号数据集(填充/标签编码/推理数据再处理)利用XGBoost算法(json文件的模型导出和载入推理)实现二分类预测应用案例
ML之XGBoost:基于泰坦尼克号数据集(填充/标签编码/推理数据再处理)利用XGBoost算法(json文件的模型导出和载入推理)实现二分类预测应用案例目录基于泰坦尼克号数据集(独热编码/标签编码)利用XGBoost算法(json文件的模型导出和载入推理)实现二分类预测应用案例# 1、定义数据集# 2、数据预处理# 3、模型训练与评估# 4、模型推理基于泰坦尼克号数据集(独热编码/标签编码)利用XGBoost算法(json文件的模型导出和载入推原创 2023-05-24 21:44:13 · 964 阅读 · 0 评论 -
ML:基于boston房价数据集利用多种线性回归算法(OLS/PLS/Lasso/Ridge)模型对比实现房价回归预测应用案例
ML:基于boston房价数据集利用多种线性回归算法(OLS/PLS/Lasso/Ridge)模型对比实现房价回归预测应用案例目录基于boston房价数据集利用多种线性回归算法(OLS/PLS/Lasso/Ridge)模型对比实现房价回归预测应用案例# 1、定义数据集# 2、数据预处理# 3、模型训练与评估基于boston房价数据集利用多种线性回归算法(OLS/PLS/Lasso/Ridge)模型对比实现房价回归预测应用案例# 1、定义数据集 CRIM原创 2023-04-30 11:41:13 · 989 阅读 · 0 评论 -
ML:MetaCost算法(代价敏感学习/分类任务中的不平衡数据集)的简介(调整少样本权重)、使用方法、案例应用之详细攻略
ML:MetaCost算法(代价敏感学习/分类任务中的不平衡数据集)的简介(调整少样本权重)、使用方法、案例应用之详细攻略目录MetaCost算法的简介MetaCost算法的案例应用MetaCost算法的简介MetaCost算法(代价敏感学习/分类任务中的不平衡数据集)的概述:基分类器训练→计算错误代价→训练元模型→预测与调整痛点 一般决策树算法更偏重于大类,追求总的分类准确率。而MetaCost认为应该考虑每个类的分类效果,而不是总的分类效果,主要是因为每个类别被误分类的代价原创 2023-04-22 23:35:22 · 1379 阅读 · 0 评论 -
ML之XGBoost:Rabit(XGBoost并行库)的简介、使用方法、案例应用之详细攻略
ML之XGBoost:Rabit(XGBoost并行库)的简介、使用方法、案例应用之详细攻略目录Rabit(XGBoost并行库)的简介Rabit(XGBoost并行库)的使用方法Rabit(XGBoost并行库)的案例应用Rabit(XGBoost并行库)的简介简介Rabit是一个用于并行计算的通用库,特别针对梯度提升树(Gradient Boosting Tree)框架XGBoost进行了优化。它提供了一种简单而有效的方式来实现XGBoost在分布式环境中的并行训练和原创 2023-05-13 02:08:46 · 983 阅读 · 0 评论 -
MLOPS:大数据/服务器下的大规模机器学习技术—并行计算技术的简介、训练大模型3+分布式并行策略:数据并行DP【MPI/Hadoop】、模型并行MP【Megatron-LM/PaLM】、管道并行PP
MLOPS:大数据/服务器下的大规模机器学习技术—并行计算技术的简介、训练大模型3+分布式并行策略:数据并行DP【MPI/Hadoop】、模型并行MP【Megatron-LM/PaLM】、管道并行PP【多核CPU/GPU】)、两种实现方式(算法并行、框架并行)之详细攻略目录相关文章一、并行计算技术的简介二、ML实现方式(算法并行/框架并行)——机器学习算法或框架中并行计算技巧实现的简介相关文章AI之MLOPS:数据科学/机器学习算法领域之工程化五大核心技原创 2023-04-22 23:34:58 · 694 阅读 · 0 评论 -
DS:基于鸢尾花数据集利用多种数据降维技术(PCA、SVD、MDS、LDA、T-SNE)实现三维可视化
DS:基于鸢尾花数据集利用多种数据降维技术(PCA、SVD、MDS、LDA、T-SNE)实现三维可视化目录基于鸢尾花数据集利用多种数据降维技术(PCA、SVD、MDS、LDA、T-SNE)实现三维可视化# 1、加载示例数据集(鸢尾花数据集)# 2、数据预处理# 3、三维图可视化基于鸢尾花数据集利用多种数据降维技术(PCA、SVD、MDS、LDA、T-SNE)实现三维可视化# 1、加载示例数据集(鸢尾花数据集)X_arr (150, 4) [[5.1原创 2023-05-19 00:29:17 · 993 阅读 · 0 评论 -
DS之MDS:MDS(Multidimensional Scaling)多维尺度降维算法的简介、使用方法、案例应用之详细攻略
DS之MDS:MDS(Multidimensional Scaling)多维尺度降维算法的简介、使用方法、案例应用之详细攻略目录MDS的简介MDS的案例应用MDS的简介MDS(Multidimensional Scaling)降维算法的概述简介多维尺度(Multidimensional scaling,缩写MDS,又译“多维标度”)也称作“相似度结构分析”(Similarity structure analysis),属于多重变量分析的方法之一,是社会学、数量心理学、市场营销等原创 2023-04-22 23:33:15 · 856 阅读 · 0 评论 -
ML之IF:孤立森林(Isolation Forest )算法的简介、案例应用之详细攻略
ML之IF:孤立森林(Isolation Forest )算法的简介、案例应用之详细攻略目录孤立森林(Isolation Forest )算法的简介孤立森林(Isolation Forest )算法的概述孤立森林(Isolation Forest )算法的案例应用孤立森林(Isolation Forest )算法的简介孤立森林(Isolation Forest )算法的概述简介孤立森林中的 “孤立” (isolation) 指的是 “把异常点从所有样本中孤立出原创 2019-05-06 22:24:05 · 5947 阅读 · 1 评论 -
ML之MTS:多变量时间序列模型或多特征时间序列模型的简介、常用方法(三大方法-概率图/线性回归/非线性回归)、案例应用之详细攻略
ML之MTS:多变量时间序列模型或多特征时间序列模型的简介、常用方法(三大方法-概率图/线性回归/非线性回归)、案例应用之详细攻略目录MTS的简介MTS的案例应用MTS的简介1、MTS多变量时间序列模型或多特征时间序列模型的概述(概率图/线性回归/非线性回归)简介在机器学习和概率统计领域,有一种常用的方法可以实现基于时间序列的预测任务,并且能够同时使用多个特征,包括时序性特征和非时序性特征。这种方法被称为多变量时间序列建模(Multivariate Time S原创 2023-05-16 22:40:15 · 766 阅读 · 0 评论 -
ML之VAR:基于上海最高气温数据集利用时间序列模型之VAR向量自回归模型/多变量自回归模型实现回归预测案例
ML之VAR:基于上海最高气温数据集利用时间序列模型之VAR向量自回归模型/多变量自回归模型实现回归预测案例目录基于上海最高气温数据集利用时间序列模型之VAR向量自回归模型/多变量自回归模型实现回归预测案例# 1、定义数据集# 2、数据集预处理# 3、模型训练与评估基于上海最高气温数据集利用时间序列模型之VAR向量自回归模型/多变量自回归模型实现回归预测案例# 1、定义数据集 week max_temperature ... air_原创 2023-05-16 22:32:52 · 1265 阅读 · 0 评论 -
ML:机器学习算法中—因子模型(多变量)、时序模型/时间序列模型(主要以单变量)算法对比的简介、带有时序性的因子模型概述、案例应用之详细攻略
ML:机器学习算法中—因子模型(多变量)、时序模型/时间序列模型(主要以单变量)算法对比的简介、带有时序性的因子模型概述、案例应用之详细攻略目录因子模型和时序模型/时间序列模型算法的简介因子模型和时序模型/时间序列模型算法的简介1、因子模型(多变量)和时序模型/时间序列模型(主要以单变量)算法的概述因子模型(多变量)时间序列模型(主要以单变量)简介因子模型是从变量之间的线性关系出发,寻找共同因子,进而将变量分解为几个因子的线性组合。在实际应用中,关系也包括非线性。原创 2023-05-13 02:07:40 · 1284 阅读 · 0 评论 -
ML之FE:基于自定义数据集进行对比标准化处理和归一化处理、自定义标签编码(二类编码和三类编码)、自动标签编码实现代码
ML之FE:基于自定义数据集进行对比标准化处理和归一化处理、自定义标签编码(二类编码和三类编码)、自动标签编码实现代码目录基于自定义数据集进行对比标准化处理和归一化处理、自定义标签编码(二类编码和三类编码)、自动标签编码基于自定义数据集进行对比标准化处理和归一化处理、自定义标签编码(二类编码和三类编码)、自动标签编码实现代码# encoding: utf-8import pandas as pdimport numpy as npnp.random.seed(123)im原创 2023-05-15 21:38:47 · 754 阅读 · 0 评论 -
ML之FE:利用pandas库衡量两个特征间的各种关系指标集合(Pearson相关系数(仅线性相关)、kendall相关系数、Spearman秩相关系数)实现代码
ML之FE:利用pandas库衡量两个特征间的各种关系指标集合(Pearson相关系数(仅线性相关)、kendall相关系数、Spearman秩相关系数)实现代码目录利用pandas库衡量两个特征间的各种关系指标集合(Pearson相关系数(仅线性相关)、kendall相关系数、Spearman秩相关系数)利用pandas库衡量两个特征间的各种关系指标集合(Pearson相关系数(仅线性相关)、kendall相关系数、Spearman秩相关系数)实现代码# ML之FE:利用panda原创 2023-05-15 21:38:33 · 775 阅读 · 0 评论 -
DS/ML:模型全流程优化之系统优化—替代Pandas库的大数据高效处理技术优化集合如HDF5技术(压缩文件)+vaex库(内存映射)+dask库(集群技术)替代pandas的各自骚操作实现代码
DS/ML:模型全流程优化之系统优化—替代Pandas库的大数据高效处理技术优化集合如HDF5技术(压缩文件)+vaex库(内存映射)+dask库(集群技术)替代pandas的各自骚操作实现代码目录模型全流程优化之系统优化—替代Pandas库的大数据高效处理技术优化集合如HDF5技术(压缩文件)+vaex库(内存映射)+dask库(集群技术)替代pandas的各自骚操作设计思路# 一、利用Vaex读取将CSV转为HDF5的文件(压缩文件)#二、利用dask高效读原创 2023-05-15 21:40:14 · 999 阅读 · 0 评论