2021年02月_tzc_fly

12月 11月 10月 09月 07月 06月 05月 04月 03月 02月 01月

原创第十四课.Transformer

目录Seq2Seq的编码器-解码器架构与Attention机制谷歌的Transformer模型最早是用于机器翻译任务，当时达到了SOTA效果。Transformer改进了RNN最被人诟病的训练慢的缺点，利用self-attention机制实现快速并行。并且Transformer可以增加到非常深的深度，充分发掘DNN模型的特性，提升模型准确率；Transformer由论文《Attention is All You Need》提出，现在被广泛应用于NLP的各个领域。目前在NLP各业务全面发展的模型如GPT，B

2021-02-19 23:23:13 481

原创第二十三课.Kaggle交易预测

目录简介基于 lightgbm 的 Kaggle 交易预测baseline优化简介实验基于 Kaggle 竞赛数据，使用 lightgbm 预测银行客户在未来是否会进行交易，比赛地址（已结束）：交易预测原始数据文件较大，故实验选用了 train.csv 中的 5 万条样本作为模型训练集（train.csv.gzip），1 万条样本作为模型测试集（test.csv.gzip）；数据集保存在个人资源处；LightGBM 是使用基于树的学习算法的梯度提升框架。它的设计是分布式且高效的，具有以下优点：

2021-02-17 15:53:03 601

原创第二十二课.XGBoost

目录模型公式优化算法目标函数树的生成预测值的确定特征空间的划分使用 XGBoost 实现波士顿房价预测模型公式XGBoost 在集成学习中占有重要的地位，其具有理论的完备性和在比赛中的实用性：一般来说，XGBoost 属于加法模型，其基函数为回归决策树；XGBoost 的目标函数为损失函数+正则化项，且损失函数使用了二阶泰勒展开；XGBoost 使用前向分步算法，通过最小化目标函数来进行模型的优化与学习。XGBoost 的模型预测值是由 MMM 个基函数的预测值累加得到的：y^i=∑t=1

2021-02-17 13:56:21 613 1

原创第二十一课.GBDT

目录集成学习：Boosting提升决策树梯度提升算法梯度提升决策树（Gradient Boosting Decision Tree，简称 GBDT），它属于集成学习中 Boosting 类的算法集成学习：Boosting集成学习是将多个模型的预测结果进行结合输出。关于集成学习，在第十四课介绍了随机森林，它属于 Bagging 类的算法。使用随机森林解决回归问题，只需要将所有回归决策树的预测值取平均即可；Boosting 类算法在解决回归问题时，只需要将个体学习器的预测值加权求和即可，如图所示：当

2021-02-16 12:16:58 290 1

原创第二十课.CART

目录回归树的生成回归树的定义预测值的确定特征空间的划分算法流程分类树的生成分类树的对比总结基尼指数的计算算法流程CART剪枝ID3、C4.5 剪枝的不足ID3、C4.5 剪枝改进：CART 剪枝CART 剪枝的案例CART 剪枝过程图解CART 剪枝算法总结分类与回归树（classification and regression tree，简称 CART）既可以用于分类，也可以用于回归。与 ID3 和 C4.5 算法（回顾第十一课决策树）不同，CART 是二叉决策树，内部结点特征的取值为是和否，左分支的取

2021-02-16 01:28:34 625

原创第十九课.基于sklearn的SVM人脸识别

目录数据集确定人脸的类别标记划分训练集和测试集与训练实验为基于sklearn的SVM人脸识别，使用 SVM 算法对戴眼镜的人脸和不戴眼镜的人脸进行分类，从而完成识别戴眼镜的人脸的任务；实验涉及的支持向量机参数计算原理，回顾第十八课；数据集人脸图像数据集 olivetti_py3.pkz，保存在个人资源处，加载数据：from sklearn.datasets import fetch_olivetti_faces# 从当前目录下加载人脸数据集，若没有则联网下载到当前目录下faces = fe

2021-02-14 00:26:44 3435 9

原创第十八课.支持向量机

目录线性可分支持向量机模型公式函数间隔与几何间隔函数间隔几何间隔间隔关系优化算法对于支持向量机的内容，应当从简单到复杂依次学习：线性可分支持向量机线性支持向量机非线性支持向量机线性可分支持向量机模型公式线性可分支持向量机为：f(x)=sign(wx+b)f(x)=sign(wx+b)f(x)=sign(wx+b)x∈Rn,w∈Rn,b∈Rx\in R^{n},w\in R^{n},b\in Rx∈Rn,w∈Rn,b∈R实际上，线性可分支持向量机的模型表达式和感知机是一样的，只不过对于

2021-02-13 18:39:22 824 1

原创第十七课.感知机

目录感知机算法感知机模型损失函数随机梯度下降算法流程感知机算法感知机模型感知机（perceptron）模型是一个简单的线性二分类模型，它是支持向量机与神经网络的基础。感知机模型的数学表达式如下：f(x)=sign(wx+b)f(x)=sign(wx+b)f(x)=sign(wx+b)w∈Rn,x∈Rn,b∈Rw\in R^{n},x\in R^{n},b\in Rw∈Rn,x∈Rn,b∈R对应实现：import numpy as npdef predict(x,w,b): '''

2021-02-11 15:38:44 625 3

原创第十六课.基于K-means的图像分割

本实验基于图像，使用 K-means 算法进行像素聚类，将一幅图像分解成若干互不相交区域的集合，从而实现图像分割；本次实验分割的对象是遥感图像，图像来自GID（Gaofen Image Dataset）数据集；首先加载必要的包和模块：import numpy as npfrom PIL import Imagefrom sklearn.cluster import KMeansPIL(Python Image Library)是 Python 的第三方图像处理库，在 Python3 中只需要安装

2021-02-03 17:27:08 901

原创第十五课.K均值算法

目录K均值算法原理K均值算法的改进：K-means++numpy实现K-meansK均值算法原理K均值（K-means）算法属于无监督学习中的聚类算法；聚类是根据样本特征向量之间的相似度或距离，将样本数据划分为若干个样本子集，每个子集定义为一个类；相似的样本聚集在相同的类，不相似的样本分散在不同的类。由上面的定义可知，聚类算法只使用了样本的特征向量xxx，并没有使用样本的标签yyy，故聚类算法属于无监督学习样本距离样本距离越小，样本的相似性越大。K均值聚类使用欧式距离的平方作为样本距离，计算公式如下

2021-02-03 15:57:31 4050

原创第十四课.随机森林

目录算法流程随机森林的生成随机森林的预测算法流程随机森林的个体学习器为决策树，并且在 Bagging（回顾第十三课）的基础上增加了随机属性选择随机森林的生成随机森林的预测

2021-02-02 21:49:48 671

原创第十三课.Bagging集成学习

集成学习随机森林以决策树为基础，属于集成学习方法，所以应先了解集成学习。通俗地讲，集成学习就是利用集体的智慧做决策。使用集成学习的方法可以将多个模型相结合，提升模型的泛化性能，降低决策的风险。与单一模型相比，集成学习通常会产生更准确、更稳定的预测结果。集成学习首先需要有多个模型，每个模型作为个体学习器，然后通过结合模块进行输出，如图所示：根据个体学习器的生成方式，集成学习可以分为两大类：一类是Bagging，个体学习器之间可以同时生成（并行），没有前后依赖关系；另一类是Boosting，个体学习器必

2021-02-02 11:27:12 258

原创第十二课.sklearn决策树实验

目录实验数据数据分析sklearn决策树分类实验数据本实验基于某信息公司的用户数据，使用决策树和可视化工具进行用户流失分析，从而预测哪类用户更容易流失，帮助公司制定相应的预防措施。实验所需数据保存在个人资源处；首先读取数据：import pandas as pd# 读取数据df = pd.read_csv('data.csv')# 将顾客ID设置为索引df.set_index(keys='customerID',inplace=True)# 数据维度df.shape # (7043

2021-02-02 00:02:08 683 1

原创第十一课.决策树

目录决策树与特征选择决策树的形式决策树的学习特征选择决策树的生成与剪枝决策树与特征选择决策树是一种基本的分类与回归方法，下面主要介绍分类决策树的原理与应用。分类决策树既可以看作是一个规则集合，又可以看作是给定特征条件下类的条件概率分布。决策树的形式决策树常用三种形式表达：树形结构，规则集合，条件概率；树形结构某银行使用决策树模型决定是否同意申请人贷款，每来一个贷款申请人，需要先看他是否有房，然后看他是否有工作，根据这两个特征决定要不要给他贷款：规则集合由上面的决策树可知，从根结点到叶子结点

2021-02-01 16:06:17 824

红楼梦人物图谱csv文件

2023-08-30

mackey_glass_t17.npy

Mackey-Glass (MG)序列的部分内容，shape为(10000,)，这个时间序列是混乱的，没有明确的周期。级数不收敛也不发散，轨迹对初始条件高度敏感。这个基准问题用于神经网络和模糊建模研究。

2021-07-12

Kaggle交易预测.rar

基于 Kaggle 竞赛数据，原始数据文件较大，故本数据集只选用了 train.csv 中的 5 万条样本作为模型训练集（train.csv.gzip），1 万条样本作为模型测试集（test.csv.gzip）

2021-02-17

olivetti_py3.pkz

人脸图像数据集 olivetti_py3.pkz，该数据集一共有 400 张人脸图片，每张图片的大小是：64x64，每张图片作为一个样本，一共有 400 个样本，每个样本的特征维度是：64x64 = 4096；400 张图片一共包含 40 个不同的人，每个人有 10 张人脸图片

2021-02-13

随机森林评估特征重要性wine.rar

基于 UCI 葡萄酒数据，使用随机森林进行特征重要性分析，这些数据是对意大利同一地区种植的三种不同品种葡萄酒的化学分析结果，分析确定了三种葡萄酒中13种成分的含量，数据的第一列是葡萄酒的类别

2021-02-02

决策树预测用户流失data.csv

基于某信息公司的用户数据，使用决策树预测用户是否会流失，字段Churn代表客户是否流失，取值：['Yes', 'No']，其余字段为特征

2021-02-01

基于朴素贝叶斯的垃圾邮件过滤data.rar

邮件数据包括训练集train（正常邮件normal，垃圾邮件spam），测试集test，中文停用词文件cn_stopwords.txt

2021-01-31

LR预测CTR数据集data.zip

数据集是电商领域数据集，共计200万的样本记录。原始特征均为ID类特征；字段说明： userid 用户ID itemid 商品ID categoryid 商品类目ID action 用户行为类型 timestamp 时间戳

2021-01-25

机器翻译nmt.zip

轻量级机器翻译数据集，en-cn为英文与中文，en-fr为英文与法文

2021-01-22

nltk_data.rar

nltk的分词工具，将其解压，放置到当前虚拟环境（假设环境名为TORCH），则目录结构为"TORCH/nltk_data/tokenizers/punkt"

2021-01-22

google.csv

机器学习第六课，使用线性回归预测未来30天 Google 股票的收盘价走势，表格中的列代表每天的股票指数，如：Open 开盘价、High 最高价、Low 最低价、Volume 成交量。Adj. Open、Adj. High、Adj. Low、Adj. Close、Adj. Volume 代表调整后的数据

2021-01-15