自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(45)
  • 收藏
  • 关注

原创 【自然语言处理】BERT系列模型-详解

BERT是2018年10月由Google AI研究院提出的一种预训练模型.BERT的全称是Bidirectional Encoder Representation from Transformers.

2025-01-16 16:11:39 1565

原创 迁移学习-详解

文本分类的是将文档(例如电子邮件,帖子,文本消息,产品评论等)分配给一个或多个类别. 当今文本分类的实现多是使用机器学习方法从训练数据中提取分类规则以进行分类, 因此构建文本分类器需要带标签的数据.用向量表示文本中的词汇(或字符)是现代机器学习中最流行的做法, 这些向量能够很好的捕捉语言之间的关系, 从而提升基于词向量的各种NLP任务的效果.数据集仍然使用:英语维基百科的部分网页信息。

2025-01-15 11:45:14 1254

原创 [自然语言处理] Transformer-详解

输入部分包含:源文本嵌入层及其位置编码器目标文本嵌入层及其位置编码器编码器部分: * 由N个编码器层堆叠而成 * 每个编码器层由两个子层连接结构组成 * 第一个子层连接结构包括一个多头自注意力子层和规范化层以及一个残差连接 * 第二个子层连接结构包括一个前馈全连接子层和规范化层以及一个残差连接。

2024-12-03 20:07:28 772 1

原创 [自然语言处理] NLP-RNN及其变体-干货

根据反向传播算法和链式法则, 梯度的计算可以简化为以下公式其中sigmoid的导数值域是固定的, 在[0, 0.25]之间, 而一旦公式中的w也小于1, 那么通过这样的公式连乘后, 最终的梯度就会变得非常非常小, 这种现象称作梯度消失. 反之, 如果我们人为的增大w的值, 使其大于1, 那么连乘够就可能造成梯度过大, 称作梯度爆炸.梯度消失或爆炸的危害:如果在训练过程中发生了梯度消失,权重无法被更新,最终导致训练失败;

2024-11-30 20:51:07 1462

原创 [自然语言处理] NLP-文本预处理-详解

分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。在英文的行文中,单词之间是以空格作为自然分界符的,而中文只是字、句和段能通过明显的分界符来简单划界,唯独词没有一个形式上的分界符。分词过程就是找到这样分界符的过程.传智教育是一家上市公司,旗下有黑马程序员品牌。我是在黑马这里学习人工智能​['传智', '教育', '是', '一家', '上市公司', ',', '旗下', '有', '黑马', '程序员', '品牌', '。

2024-11-30 17:31:10 1650

原创 [深度学习] RNN循环神经网络详解

​参数意义是1.input_size:输入数据的维度,一般设为词向量的维度;2.hidden_size:隐藏层h的维数,也是当前层神经元的输出维度;3.num_layer: 隐藏层h的层数,默认为1.将RNN实例化就可以将数据送入进行处理。输入数据和输出结果输入数据:输入主要包括词嵌入的x 、初始的隐藏层h0x的表示形式为[seq_len, batch, input_size],即[句子的长度,batch的大小,词向量的维度]

2024-11-27 20:50:26 1605

原创 【深度学习】卷积神经网络详解

卷积神经网络(Convolutional Neural Network)是含有卷积层的神经网络. 卷积层的作用就是用来自动学习、提取图像的特征.卷积层、池化层和全连接层构成:1.卷积层负责提取图像中的局部特征;2.池化层用来大幅降低参数量级(降维);3.全连接层用来输出想要的结果。

2024-11-23 15:30:00 839

原创 【深度学习】基础概念及代码

神经网络的构成(了解)多种损失函数的原理及基本操作(掌握)多种优化器的原理及基本操作(掌握)正则化方式(掌握)

2024-11-22 20:20:39 1107

原创 【深度学习】Pytorch框架及张量操作

深度学习的概念及优缺点(了解)Pytorch框架安装(掌握)Pytorch中张量的基本操作(掌握)

2024-11-15 08:30:00 901

原创 【金融风控】样本不均衡和异常点检测

公式中,E(h(x)) 表示数据 x 在多棵 iTree 的路径长度的均值,φ表示单棵 iTree 的训练样本的样本数,C(φ)表示用φ条数据构建的二叉树的平均路径长度,它在这里主要用来做归一化。用这样的历史数据学出的模型只能检测曾经出现过与历史诈骗相似的诈骗,而对于变种的诈骗和从未见过的诈骗,模型将无能为力。上图中,右上角的点的lrd = 它最近的邻居[ (-1, -1), (-1.5, -1.5) , (-1, -2)] 这三个点的reach-dist的平均值的倒数。但是在团体欺诈检测中就不太适用了。

2024-11-14 15:01:12 1417

原创 【金融风控】模型评分卡构建

内容介绍 掌握KS值的计算方法 知道评分映射方法 知道LightGBM基本原理 掌握使用lightGBM进行特征筛选的方法 应用toad构建评分卡模型 【理解】模型构建流程实验设计 新的模型能上线一定要比原有方案有提升,需要通过实验证明 冷启动 业务初期 成长期 波动期 策略调整 新增数据源 人工审核 人工审核 新旧模型对比 新旧模型对比 避免迭代模型 新

2024-11-13 08:30:00 1373

原创 【金融风控】特征评估与筛选详解

用新的特征矩阵N作为输入,训练模型,能输出feature_importances_的模型,如RandomForest, lightgbm,xgboost都可以,得到真实特征和阴影特征的feature importances,创建阴影特征 (shadow feature) : 对每个真实特征R,随机打乱顺序,得到阴影特征矩阵S,拼接到真实特征后面,构成新的特征矩阵N = [R, S]当R²越大,拟合的越好,说明x_i这个特征能被其它特征线性表示,当VIF超过某个阈值的时候,可以考虑把这个x_i删除。

2024-11-12 20:26:35 1480

原创 【金融风控】特征构造及代码详解

优势:WOE越大,bad rate越高,也就是说,通过WOE变换,特征值不仅仅代表一个分类,还代表了这个分类的权重。WOE(Weight of Evidence) 反映单特征在好坏用户区分度的度量,WOE编码是一种用于二分类问题的编码方法,通过计算每个类别的证据权重来表示其与目标变量之间的关系。上面这种无差别聚合方法进行聚合得到的结果,通常具有较高的共线性,但信息量并无明显增加,影响模型的鲁棒性和稳定性。模型的可解释性没有准确的定义,凡是可以协助人理解模型决策过程和结果的方法,都可称之为模型的可解释性。

2024-11-10 08:30:00 1243

原创 【金融风控】风控建模概述

如正样本采样为原来的1/4,则为采样后的正样本增加权重为4,负样本权重保持为1。1 提交特征和模型报表 2 离线结果质量复核 (无缺失,无重复,存储位置正确,文件名规范) 3 保存模型文件,确定版本号,提交时间 4 老大审批,通知业务方 5 线上部署,案例调研, 持续监控。由于负样本通常较少,因此通常只针对正样本进行欠采样。评分卡建模通常要求正负样本的数量>=1500,但当总样本量超过50000个时,许多模型的效果不再随着样本量的增加而有显著提升,而且数据处理与模型训练过程通常较为耗时。

2024-11-09 20:54:01 1409

原创 【金融风控】相关业务介绍及代码详解

查询实际到账日期字段得知当前最近的到账日为2019年5月17日,如果以2019年5月17日为观察点,有些贷款还没到还款日,没法统计DPD90的数据,所以,这里只统计2019年之前的情况,下面将对应时间段的数据取出。C,信用好,但是他有很多网贷纪录,同时网贷纪录也保持按期还款,纪录良好,结果是人工打电话过来,审核通过。A,信用好,有征信纪录,没有预期,违约等,没有太多的申请纪录和拒绝的纪录,结果秒批。B,信用很差,征信记录上有逾期,有其他网贷纪录,没有安全还款,结果秒拒。

2024-11-06 20:58:27 1477

原创 【机器学习】支持向量机SVM-详解

SVM全称是supported vector machine(支持向量机),即寻找到一个超平面使样本分成两类,并且间隔最大。SVM能够执行线性或非线性分类、回归,甚至是异常值检测任务。是机器学习领域最受欢迎的模型之一。SVM特别适用于中小型复杂数据集的分类。

2024-10-24 19:30:34 3204

原创 [ 机器学习 ] 聚类算法详解

一种典型的无监督学习算法,主要用于将相似的样本自动归到一个类别中。在聚类算法中根据样本之间的相似性,将样本划分到不同的类别中,对于不同的相似度计算方法,会得到不同的聚类结果,常用的相似度计算方法有欧式距离法。参数:n_clusters:开始的聚类中心数量整型,缺省值=8,生成的聚类数,即产生的质心(centroids)数。方法:计算聚类中心并预测每个样本属于哪个类别,相当于先调用fit(x),然后再调用predict(x)已知:客户性别、年龄、年收入、消费指数。

2024-10-23 15:11:09 1073

原创 【机器学习】特征降维-详解

用于训练的数据集特征对模型的性能有着极其重要的作用。如果训练数据中包含一些不重要的特征,可能导致模型的泛化性能不佳。例如:某些特征的取值较为接近,其包含的信息较少我们希望特征独立存在,对预测产生影响,具有相关性的特征可能并不会给模型带来更多的信息,但是并不是说相关性完全无用。降维是指在某些限定条件下,降低特征个数, 我们接下来介绍集中特征降维的方法:低方差过滤法,相关系数法,PCA(主成分分析)降维法。

2024-10-21 19:56:26 480

原创 【机器学习】朴素贝叶斯详解

朴素贝叶斯分类alpha:拉普拉斯平滑系数。

2024-10-21 19:44:21 1052

原创 集成学习详解

1.知道集成学习是什么?2.了解集成学习的分类3.理解bagging集成的思想4.理解boosting集成的思想Adaptive Boosting(自适应提升)基于 Boosting思想实现的一种集成学习算法核心思想是通过逐步提高那些被前一步分类错误的样本的权重来训练一个强分类器。弱分类器的性能比随机猜测强就行,即可构造出一个非常准确的强分类器。训练时,样本具有权重,并且在训练过程中动态调整。被分错的样本的样本会加大权重,算法更加关注难分的样本。(观察下图)(1)不同的训练集--->调整样本权重。

2024-10-21 09:35:19 2203

原创 机器学习-决策树详解

决策树是什么?决策树是一种树形结构,树中每个内部节点表示一个特征上的判断,每个分支代表一个判断结果的输出,每个叶子节点代表一种分类结果决策树的建立过程1.特征选择:选取有较强分类能力的特征。2.决策树生成:根据选择的特征生成决策树。3.决策树也易过拟合,采用剪枝的方法缓解过拟合。Cart模型是一种决策树模型,它即可以用于分类,也可以用于回归。分类和回归树模型采用不同的最优化策略。Cart回归树使用平方误差最小化策略,Cart分类生成树采用的基尼指数最小化策略。criterion特征选择标准。

2024-10-14 14:35:06 1382

原创 线性回归详解

1.理解线性回归是什么?2.知道一元线性回归和多元线性回归的区别3.知道线性回归的应用场景数据介绍给定的这些特征,是专家们得出的影响房价的结果属性。我们此阶段不需要自己去探究特征是否有用,只需要使用这些特征。到后面量化很多特征需要我们自己去寻找。

2024-10-08 19:52:51 1072

原创 机器学习概述详解

1.知道特征工程是什么?2.理解特征提取的作用3.理解特征预处理的作用4.了解特征降维、特征选择、特征组合。

2024-09-28 19:41:56 1159

原创 Pandas和Seaborn可视化详解

Seaborn是在matplotlib的基础上进行了更高级的API封装,从而使得作图更加容易,在大多数情况下使用seaborn能做出很具有吸引力的图,而使用matplotlib就能制作具有更多特色的图。绘制直方图的时候,需要注意, 如果数据分布不均匀(倾斜的数据, 有取值数量较少的极大, 极小值) 这个时候如果不做数据的处理, 直接绘制直方图, 不能反映出数据的分布来, 只能得到一个柱子。KDE图可以理解为是对直方图的加窗平滑. 它解决了一个基本的数据平滑问题, 即: 根据有限的数据样本对总体进行推断.

2024-09-25 20:40:08 1489

原创 Matplotlib-数据可视化详解

可视化介绍数据可视化是指直观展现数据,它是数据处理过程的一部分。把数值绘制出来更方便比较。借助数据可视化,能更直观地理解数据,这是直接查看数据表做不到的数据可视化有助于揭示数据中隐藏的模式,数据分析时可以利用这些模式选择模型可视化库介绍基于Matplotlib 绘制静态图形pandasseaborn基于JS (javaScript)plotly状态接口和面向对象导包# 使用Matplotlib需要导入pyplot# Matplotlib.pyplot 包含一系列绘图函数的相关函数。

2024-09-23 19:07:04 2102 1

原创 Pandas-日期类型处理代码详解

概述和其它语言类似, Python内置了datetime对象,可以在datetime库中找到pandas的日期时间类型默认是 datetime64[ns]实例代码Python中的-日期时间类型# 导包from datetime import datetime # 这个是原生Python包的内容​# 场景1: 演示Python中的 日期时间类型# 1. 获取当前时间​# 2. 可以手动设置日期.​# 3. 计算两个日期差.Pandas中的-日期时间类型。

2024-09-23 08:43:01 1875

原创 Pandas 数据分析入门详解

DataFrame读写文件DataFrame加载部分数据DataFrame分组聚合计算DataFrame常用排序方式。

2024-09-20 12:30:00 1460

原创 Pandas_数据结构详解

DataFrame是一个表格型的==结构化==数据结构,它含有一组或多组有序的列(Series),每列可以是不同的值类型(数值、字符串、布尔值等)。DataFrame是Pandas中最基本的数据结构,Series的许多属性和方法在DataFrame中也一样适用.两个Series之间计算时,索引值相同的元素之间会进行计算;索引值不同的元素的计算结果会用NaN值(缺失值)填充。两个Series之间计算时,索引值相同的元素之间会进行计算;索引值不同的元素的计算结果会用NaN值(缺失值)填充。

2024-09-19 20:42:36 1386

原创 Mumpy 入门详解

例如一个n排 m列的矩阵,它的shape属性将是(2,3),这个元组的长度显然是秩,即维度或者ndim属性。本身是由C语言开发,是个很基础的扩展,NumPy被Python其它科学计算包作为基础包,因此理解np的数据类型对python数据分析十分重要。NumPy的出现一定程度上解决了Python运算性能不佳的问题,同时提供了更加精确的数据类型,使其具备了构造复杂数据类型的能力。注意:ndarray的下标从0开始,且数组里的所有元素必须是相同类型。, 是 ndarray 的子类,只能生成 2 维的矩阵。

2024-09-19 20:27:23 1034

原创 力扣-96.不同的二叉搜索树 题目详解

二叉搜索树是一个有序树:若它的左子树不空,则左子树上所有结点的值均小于它的根结点的值;若它的右子树不空,则右子树上所有结点的值均大于它的根结点的值;它的左、右子树也分别为二叉搜索树。

2024-09-15 20:06:13 1247

原创 MySql-单表以及多表查询详解

约束详解单表约束多表约束DQL语句详解简单查询条件查询聚合查询分组查询排序查询模糊查询分页查询多表查询交叉连接连接查询子查询自关联(自连接)查询扩展: 多表建表一对多多对多一对一-- ------------------------------- 案例2: 单表约束之 其它约束 -------------------------------# 演示: 非空约束, 唯一约束, 默认约束.

2024-09-15 20:02:45 1771

原创 【SQL】数据库详解-标准SQL语句

即: 所有的关系型数据库基本都支持, 未来大家主要用哪种数据库, 再单独学习下该数据库的 独有语法即可.DML语句, DataBase Manipulation Language, 数据操作语言.DQL语句, DataBase Query Language, 数据查询语言.主要是: 设置权限, 访问级别(隔离级别), 创建用户等的...主要是操作: 数据库, 数据表, 列的, 进行: CURD.主要是操作: 表数据的, 进行: 查询操作.目前我们所学的SQL语句, 是。

2024-09-14 19:42:39 1631

原创 LInux 进阶

概述它指的是 Virtual Interface, 是Linux自带的经典的文本编辑器, 类似于 微软自带的记事本.我们一般用vim, 它是vi的升级版, 关键字会高亮显示, 更适合编辑. 用法都是一样的.vim编辑器入门# 1. 开始编辑文件. vi 或者 vim均可vim 1.txt # 文件存在就编辑, 不存在就创建.​# 2. 按下字母i, 进入到 编辑模式. insert: 插入i之后就可以愉快的编辑内容了.​。

2024-09-12 19:36:35 1700

原创 Linux环境搭建详解及基础命令详解

计算机简介Linux系统介绍Linux环境搭建Linux基础命令概述全称叫电子计算机, 英文名叫Computer, 俗称叫: 电脑, 简称叫: PC, 就是有硬件和软件组成的电子设备.组成计算机硬件CPU, 中央处理器, 由 运算器 + 控制器 组成存储器内存: 内存条, DDR4, 3233睿频, 8G...外存: 硬盘(SSD, HSD, HDD), U盘, 光盘...计算机软件系统软件: windows...应用软件: 微信, QQ...操作系统介绍作用。

2024-09-11 19:39:14 1225

原创 【Python】数据结构,链表,算法详解

自定义代码-模拟链表删除节点查找节点算法入门-排序类的冒泡排序选择排序插入排序快速排序算法入门-查找类的二分查找-递归版二分查找-非递归版分线性结构-树介绍基本概述特点和分类自定义代码-模拟二叉树"""案例: 自定义代码, 模拟链表.​背景:顺序表在存储数据的时候, 需要使用到连续的空间, 如果空间不够, 就会导致扩容失败, 针对于这种情况, 我们可以通过链表实现.链表在内存中存储的时候, 可以不是连续的空间, "有地儿就行", 所以: 增删相对更好操作.​。

2024-09-09 19:39:07 2735

原创 [Python] 数据结构 详解及代码

数据结构介绍列表链表算法介绍排序相关(冒泡, 插入, 选择, 快速排序)程序大白话翻译,程序 = 数据结构 + 算法数据结构指的是存储, 组织数据的方式.算法指的是为了解决实际业务问题而思考 思路和方法, 就叫: 算法.算法具有独立性算法是解决问题的思路和方式, 最重要的是思维, 而不是语言, 其(算法)可以通过多种语言进行演绎.5大特性有输入, 需要传入1或者多个参数有输出, 需要返回1个或者多个结果有穷性, 执行一定次数循环后, 会自动终止, 不会死循环.

2024-09-08 19:42:35 1420

原创 [Python] 正则表达式入门到精通

"""正则表达式介绍:概述:全称是 Regular Expression, 正则表达式, 即: 正确的, 符合特定规则的式子.作用:校验, 匹配数据的.细节:1. 学正则就是学正则表达式的 规则, 不要背, 因为这么多年了, 校验邮箱, 校验手机...等一些列的规则前辈们都写出来, 网上一搜一堆.2. 我讲正则的目的: 能用我们学的规则, 看懂别人写的 (正则表达式)式子, 且会根据需求修改即可.

2024-09-07 20:17:54 698

原创 [Python] PyMySQL演示SQL注入攻击 及 操作事务

PyMySQL-SQL注入攻击问题PyMysql-操作事务。

2024-09-05 20:07:39 991

原创 [Python] 线程和进程 概述 及 代码 全解

多进程案例带参数的多进程代码(重点)查看进程的id演示: 进程之间数据是相互隔离的多线程案例入门案例带参数的多线程代码(重点)演示: 线程之间数据是相互共享的互斥锁上下文管理器(重点)解析: with open原理, 为啥会自动释放资源.生成器(重点)格式yield关键字案例: 批量获取歌词"""案例: 演示自定义上下文管理器.​细节:1. with ... as ... 会在其内容执行完毕后, 自动使用.

2024-09-05 18:00:54 352

原创 python-网编详解

网络编程介绍三要素IP地址端口号协议网络编程图解网络编程案例客户端和服务器端交互-一句话服务器端升级-支持多客户端扩展: 客户端和服务器端交互-发送文件单线程案例演示多线程案例演示概述网络编程也叫Socket编程, 套接字编程.用来实现网络互联的不同计算机上运行的程序间可以进行数据交互, 就叫: 网络编程.大白话解释: 两台不同的电脑互相传输信息就叫: 网络编程.三要素IP地址端口号协议概述指的是同一时间, 执行多个任务.好处充分利用CPU资源, 提高执行效率.

2024-09-04 18:11:57 2638

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除