- 博客(14)
- 资源 (15)
- 收藏
- 关注
原创 第十四课.Transformer
目录Seq2Seq的编码器-解码器架构与Attention机制谷歌的Transformer模型最早是用于机器翻译任务,当时达到了SOTA效果。Transformer改进了RNN最被人诟病的训练慢的缺点,利用self-attention机制实现快速并行。并且Transformer可以增加到非常深的深度,充分发掘DNN模型的特性,提升模型准确率;Transformer由论文《Attention is All You Need》提出,现在被广泛应用于NLP的各个领域。目前在NLP各业务全面发展的模型如GPT,B
2021-02-19 23:23:13 480
原创 第二十三课.Kaggle交易预测
目录简介基于 lightgbm 的 Kaggle 交易预测baseline优化简介实验基于 Kaggle 竞赛数据,使用 lightgbm 预测银行客户在未来是否会进行交易,比赛地址(已结束):交易预测原始数据文件较大,故实验选用了 train.csv 中的 5 万条样本作为模型训练集(train.csv.gzip),1 万条样本作为模型测试集(test.csv.gzip);数据集保存在个人资源处;LightGBM 是使用基于树的学习算法的梯度提升框架。 它的设计是分布式且高效的,具有以下优点:
2021-02-17 15:53:03 601
原创 第二十二课.XGBoost
目录模型公式优化算法目标函数树的生成预测值的确定特征空间的划分使用 XGBoost 实现波士顿房价预测模型公式XGBoost 在集成学习中占有重要的地位,其具有理论的完备性和在比赛中的实用性:一般来说,XGBoost 属于加法模型,其基函数为回归决策树;XGBoost 的目标函数为损失函数+正则化项,且损失函数使用了二阶泰勒展开;XGBoost 使用前向分步算法,通过最小化目标函数来进行模型的优化与学习。XGBoost 的模型预测值是由 MMM 个基函数的预测值累加得到的:y^i=∑t=1
2021-02-17 13:56:21 608 1
原创 第二十一课.GBDT
目录集成学习:Boosting提升决策树梯度提升算法梯度提升决策树(Gradient Boosting Decision Tree,简称 GBDT),它属于集成学习中 Boosting 类的算法集成学习:Boosting集成学习是将多个模型的预测结果进行结合输出。关于集成学习,在第十四课介绍了随机森林,它属于 Bagging 类的算法。使用随机森林解决回归问题,只需要将所有回归决策树的预测值取平均即可;Boosting 类算法在解决回归问题时,只需要将个体学习器的预测值加权求和即可,如图所示:当
2021-02-16 12:16:58 290 1
原创 第二十课.CART
目录回归树的生成回归树的定义预测值的确定特征空间的划分算法流程分类树的生成分类树的对比总结基尼指数的计算算法流程CART剪枝ID3、C4.5 剪枝的不足ID3、C4.5 剪枝改进:CART 剪枝CART 剪枝的案例CART 剪枝过程图解CART 剪枝算法总结分类与回归树(classification and regression tree,简称 CART)既可以用于分类,也可以用于回归。与 ID3 和 C4.5 算法(回顾第十一课决策树)不同,CART 是二叉决策树,内部结点特征的取值为是和否,左分支的取
2021-02-16 01:28:34 625
原创 第十九课.基于sklearn的SVM人脸识别
目录数据集确定人脸的类别标记划分训练集和测试集与训练实验为基于sklearn的SVM人脸识别,使用 SVM 算法对戴眼镜的人脸和不戴眼镜的人脸进行分类,从而完成 识别戴眼镜的人脸 的任务;实验涉及的支持向量机参数计算原理,回顾第十八课;数据集人脸图像数据集 olivetti_py3.pkz,保存在个人资源处,加载数据:from sklearn.datasets import fetch_olivetti_faces# 从当前目录下加载人脸数据集,若没有则联网下载到当前目录下faces = fe
2021-02-14 00:26:44 3432 9
原创 第十八课.支持向量机
目录线性可分支持向量机模型公式函数间隔与几何间隔函数间隔几何间隔间隔关系优化算法对于支持向量机的内容,应当从简单到复杂依次学习:线性可分支持向量机线性支持向量机非线性支持向量机线性可分支持向量机模型公式线性可分支持向量机为:f(x)=sign(wx+b)f(x)=sign(wx+b)f(x)=sign(wx+b)x∈Rn,w∈Rn,b∈Rx\in R^{n},w\in R^{n},b\in Rx∈Rn,w∈Rn,b∈R实际上,线性可分支持向量机的模型表达式和感知机是一样的,只不过对于
2021-02-13 18:39:22 823 1
原创 第十七课.感知机
目录感知机算法感知机模型损失函数随机梯度下降算法流程感知机算法感知机模型感知机(perceptron)模型是一个简单的线性二分类模型,它是支持向量机与神经网络的基础。感知机模型的数学表达式如下:f(x)=sign(wx+b)f(x)=sign(wx+b)f(x)=sign(wx+b)w∈Rn,x∈Rn,b∈Rw\in R^{n},x\in R^{n},b\in Rw∈Rn,x∈Rn,b∈R对应实现:import numpy as npdef predict(x,w,b): '''
2021-02-11 15:38:44 625 3
原创 第十六课.基于K-means的图像分割
本实验基于图像,使用 K-means 算法进行像素聚类,将一幅图像分解成若干互不相交区域的集合,从而实现图像分割;本次实验分割的对象是遥感图像,图像来自GID(Gaofen Image Dataset)数据集;首先加载必要的包和模块:import numpy as npfrom PIL import Imagefrom sklearn.cluster import KMeansPIL(Python Image Library)是 Python 的第三方图像处理库,在 Python3 中只需要安装
2021-02-03 17:27:08 901
原创 第十五课.K均值算法
目录K均值算法原理K均值算法的改进:K-means++numpy实现K-meansK均值算法原理K均值(K-means)算法属于无监督学习中的聚类算法;聚类是根据样本特征向量之间的相似度或距离,将样本数据划分为若干个样本子集,每个子集定义为一个类;相似的样本聚集在相同的类,不相似的样本分散在不同的类。由上面的定义可知,聚类算法只使用了样本的特征向量xxx,并没有使用样本的标签yyy,故聚类算法属于无监督学习样本距离样本距离越小,样本的相似性越大。K均值聚类使用欧式距离的平方作为样本距离,计算公式如下
2021-02-03 15:57:31 4049
原创 第十四课.随机森林
目录算法流程随机森林的生成随机森林的预测算法流程随机森林的个体学习器为决策树,并且在 Bagging(回顾第十三课) 的基础上增加了随机属性选择随机森林的生成随机森林的预测
2021-02-02 21:49:48 671
原创 第十三课.Bagging集成学习
集成学习随机森林以决策树为基础,属于集成学习方法,所以应先了解集成学习。通俗地讲,集成学习就是利用集体的智慧做决策。使用集成学习的方法可以将多个模型相结合,提升模型的泛化性能,降低决策的风险。与单一模型相比,集成学习通常会产生更准确、更稳定的预测结果。集成学习首先需要有多个模型,每个模型作为个体学习器,然后通过结合模块进行输出,如图所示:根据个体学习器的生成方式,集成学习可以分为两大类:一类是Bagging,个体学习器之间可以同时生成(并行),没有前后依赖关系;另一类是Boosting,个体学习器必
2021-02-02 11:27:12 258
原创 第十二课.sklearn决策树实验
目录实验数据数据分析sklearn决策树分类实验数据本实验基于某信息公司的用户数据,使用决策树和可视化工具进行用户流失分析,从而预测哪类用户更容易流失,帮助公司制定相应的预防措施。实验所需数据保存在个人资源处;首先读取数据:import pandas as pd# 读取数据df = pd.read_csv('data.csv')# 将顾客ID设置为索引df.set_index(keys='customerID',inplace=True)# 数据维度df.shape # (7043
2021-02-02 00:02:08 683 1
原创 第十一课.决策树
目录决策树与特征选择决策树的形式决策树的学习特征选择决策树的生成与剪枝决策树与特征选择决策树是一种基本的分类与回归方法,下面主要介绍分类决策树的原理与应用。分类决策树既可以看作是一个规则集合,又可以看作是给定特征条件下类的条件概率分布。决策树的形式决策树常用三种形式表达:树形结构,规则集合,条件概率;树形结构某银行使用决策树模型决定是否同意申请人贷款,每来一个贷款申请人,需要先看他是否有房,然后看他是否有工作,根据这两个特征决定要不要给他贷款:规则集合由上面的决策树可知,从根结点到叶子结点
2021-02-01 16:06:17 824
mackey_glass_t17.npy
2021-07-12
Kaggle交易预测.rar
2021-02-17
olivetti_py3.pkz
2021-02-13
随机森林评估特征重要性wine.rar
2021-02-02
基于朴素贝叶斯的垃圾邮件过滤data.rar
2021-01-31
LR预测CTR数据集data.zip
2021-01-25
nltk_data.rar
2021-01-22
google.csv
2021-01-15
hymenoptera_data.zip
2020-12-02
glove.6B.100d.txt.zip
2020-11-29
MNIST与FashionMNIST数据集
2020-11-29
TextSet.zip
2020-11-09
fasterRCNN口罩检测
2020-05-26
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人