机器学习专栏
文章平均质量分 80
CyrusMay
这个作者很懒,什么都没留下…
展开
-
BERT网络的原理与实战
BERT(Bidirectional Encoder Representations from Transformers)是一种基于Transformer架构的预训练语言模型,由Google在2018年提出。BERT可以在大规模的未标注文本上进行预训练,然后在各种下游NLP任务上进行微调,取得了很好的效果。BERT的主要贡献在于将双向预训练引入了Transformer架构中,使得模型能够更好地理解上下文信息,从而在下游任务中表现更加出色。本文将介绍BERT网络的原理与实战,包括预训练和微调两个部分。原创 2023-05-24 21:50:14 · 2145 阅读 · 2 评论 -
XGBoost算法原理与实战
XGBoost全名叫做eXtreme Gradient Boosting,是一种基于GBDT的高效、灵活、可扩展的梯度提升算法。近年来,在各种数据科学竞赛中,XGBoost屡创佳绩,成为众多数据科学家和算法工程师的新宠。本文将从原理和实战两个方面,带领大家深入了解XGBoost。原创 2023-05-22 23:16:53 · 910 阅读 · 1 评论 -
机器学习 —— sklearn实现神经网络并用于手写数字识别
机器学习 —— sklearn实现神经网络并用于手写数字识别from sklearn.neural_network import MLPClassifier"""Multilayer Perception 多层感知器"""from sklearn.preprocessing import StandardScalerfrom sklearn.datasets import load_digitsfrom sklearn.metrics import classification_repor原创 2022-04-17 13:20:34 · 1284 阅读 · 0 评论 -
机器学习 聚类篇——DBSCAN的参数选择及其应用于离群值检测
机器学习 聚类篇——DBSCAN的参数选择及其应用于离群值检测摘要python实现代码计算实例摘要DBSCAN(Density-Based Spatial Clustering of Applications with Noise) 为一种基于密度的聚类算法,python实现代码eps:邻域半径(float)MinPts:密度阈值(int).fit(X):对待聚类的数据集进行聚类用法:指定邻域半径和密度阈值,这两个参数对应于不同的数据集需要进行调整,然后直接调用fit(X) 进行数据集的聚类。原创 2021-02-03 16:08:37 · 54014 阅读 · 36 评论 -
机器学习 聚类篇——python实现DBSCAN(基于密度的聚类方法)
机器学习 聚类篇——python实现DBSCAN(基于密度的聚类方法)摘要python实现代码计算实例摘要DBSCAN(Density-Based Spatial Clustering of Applications with Noise) 为一种基于密度的聚类算法,它不仅可以找出具有任何形状的簇,而且还可以用于检测离群值。其基本思想为数据点分布紧凑的应被划分为一类,而周围未分布有或仅有极少数点的数据点则有可能为离群值。本文通过python实现了该聚类方法,并将代码进行了封装,方便读者调用。下图为正文原创 2020-12-21 21:20:41 · 8672 阅读 · 3 评论 -
机器学习 特征选择篇——python实现MIC(最大信息系数)计算
机器学习 特征选择篇——python实现MIC(最大信息系数)计算摘要python实现代码计算实例摘要MIC(最大信息系数) 可以检测变量之间的非线性相关性,常用于特征工程中的特征选择,即通过计算各特征与因变量之间的MIC,从中挑选出对因变量影响较大的特征,剔除信息量较少的特征,从而使得用于建模的变量更具代表性。一般使用该方法时,需要有较大的数据样本。本文通过python实现了MIC(最大信息系数),并将代码进行了封装,方便读者调用。python实现代码此对象用于计算离散变量的熵、条件熵、熵增益(互原创 2020-12-03 17:41:16 · 19367 阅读 · 24 评论 -
机器学习 集成学习篇——python实现Bagging和AdaBOOST算法
机器学习 集成学习篇——python实现Bagging和AdaBOOST算法摘要Bagging算法Adaboost算法摘要本文通过python实现了集成学习中的Bagging和AdaBOOST算法,并将代码进行了封装,方便读者调用。Bagging算法import numpy as npimport pandas as pdclass Cyrus_bagging(object): def __init__(self,estimator,n_estimators = 20):原创 2020-06-12 13:53:30 · 3433 阅读 · 4 评论 -
机器学习 决策树篇——解决连续变量的分类问题
机器学习 决策树篇——解决连续变量的分类问题摘要信息熵、条件熵、熵增益、熵增益率的计算GiNi系数、GiNi系数增益的计算python代码连续变量决策树分类案例摘要本文通过python实现了连续变量的信息熵、条件熵、熵增益、熵增益率、GiNi系数、GiNi系数增益的计算、实现了连续变量的决策树分类模型,同样也适用于离散变量的分类模型,并将代码进行了封装,方便读者调用。信息熵、条件熵、熵增益、熵增益率的计算.cal_entropy():计算熵的函数.cal_conditional_entropy()原创 2020-06-09 00:00:39 · 5686 阅读 · 9 评论 -
机器学习 决策树篇——解决离散变量的分类问题
机器学习 决策树篇——解决离散变量的分类问题摘要熵增益和熵增益率计算熵增益和熵增益率运行结果离散变量的决策树模型决策树模型运行结果摘要本文通过python实现了熵增益和熵增益率的计算、实现了离散变量的决策树模型,并将代码进行了封装,方便读者调用。熵增益和熵增益率计算此对象用于计算离散变量的熵、条件熵、熵增益(互信息)和熵增益率.cal_entropy():计算熵的函数.cal_conditional_entropy():计算条件熵的函数.cal_entropy_gain():计算熵增益(互信息原创 2020-05-19 23:03:30 · 5032 阅读 · 0 评论 -
机器学习 回归篇(1)——多元线性回归
机器学习 回归篇(1)——多元线性回归摘要线性回归简介python实现运行结果及可视化摘要线性回归简介线性回归问题的重点在于如何求解回归函数的截距和系数。1、构建代价函数(也叫损失函数):平均平方误差。2、通过最小二乘法或其他优化算法进行求解,因为线性回归的代价函数为凸函数,所以一般的经典优化算法用于求解都是适用的,如梯度下降法、单纯形法等等。python实现CyrusLinearR...原创 2020-05-08 11:15:01 · 1340 阅读 · 0 评论