自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 模型融合 --stacking

模型融合方法分为以下几种:1、平均法:分加权平均、简单平均;2、投票法:绝对多数、相对多数和加权平均;3、学习法:当训练数据较多时,通过另一个学习器来进行分类。bagging: 并行,通过平均能够降低误差(有放回抽取k个训练集,训练模型k个),最后投票,通过数据的不同训练得到不同的分类器效果,如果分类器本身性能稳定,则整合的意义不大。例子:随机森林,树模型。boosting: 串行,训练一系列弱分类器,利用模型之间的依赖,通过给错分样本更大的权重来提升性能,stacking(结合策略):通过一个

2021-07-19 10:15:13 457

原创 toad -评分卡模型

Toad简介一个可以用作数据探查、特征选择和评分卡模型建模的python工具包。参考:https://www.cnblogs.com/cgmcoding/p/14026520.htmlhttps://www.freesion.com/article/2550417274/1.EDA数据探查toad.detect() # 高阶版 describe功能以datafountain中非法集资案例中的数据为例,base_info.csvimport toadimport pandasbase =

2021-07-05 16:04:01 1418

原创 pandas在读excel时就设置列的类型

问题:-pandas在读excel时,如果某列是纯数字且以0开头,如011223,读数时默认为整型,将第一个0删去。解决方法:pd.read_excel(filename, converters = {columns_name: str})

2021-05-17 18:07:32 1116

原创 文本数据处理汇总

1.匹配中文曾经看到说\W+可以,但亲测无效。转向编码的形式:[\u4e00-\u9fa5]也不行,只能是:[\u4e00-\u9fcc]+2.不匹配某个字符串中间不包含 str1((?!pattern).)*str2开头不包含^((?!pattern).)*str结尾不包含str1.*[^?吗]$ 或者str1[^?吗]*$3.零宽断言1.正向肯定预查(?=pattern)非获取匹配,在任何匹配pattern的字符串开始处匹配查找字符串,该匹配不需要获取供以后使用。例如,“Windows

2021-01-13 17:11:09 189

原创 数值数据处理汇总(持续更新)

**一、结构化数据**1.遍历dataframefor index, row in df.iterrows(): print(row[0],row[1])2.处理空值全为数值型:df.isnull(s)字符串型:if type(s) == float

2021-01-07 17:50:21 167

原创 损失函数 -交叉熵损失函数

一、相关知识1)熵:即衡量信息不确定性的大小2)交叉熵:真实标签与预测标签之间的不同(越不同,包含的信息量越大,即熵越大)3)损失函数:Loss(y_pred,y_ture)二、交叉熵损失函数-交叉熵损失函数:评估label和predicts之间的差距(熵越小即两者越接近)计算公式:q——表示预测样本分布p——表示真实样本分布在具体分类中:y——表示样本的label,正类为1,负类为0p——表示样本预测为正的概率参考文献:1)https://zhuanlan.zhihu.

2020-05-29 16:18:52 406

翻译 Attention机制

参考:1)https://jalammar.github.io/illustrated-transformer/一、Attention机制的引入背景Recurrent神经网络的ht需要ht-1和t进行计算生成hidden,无法并行处理。当句子长度较长时,耗费的计算力太大,且例如RNN等模型会发生长程的梯度消失,造成长序列到定长向量转化而造成的信息损失的瓶颈。二、模型整体架构模型包含两个重要的组成部分:1)encoders(编码组件); 2)decoders (解码组件)编码组件和解码组件分别包含

2020-05-27 10:44:15 367

原创 FileNotFoundError: [WinError 3]系统找不到指定的路径

问题:FileNotFoundError: [WinError 3]系统找不到指定的路径。: “’./outputs/cner_output’”

2020-05-13 10:36:56 3620

翻译 checkpoint文件的作用

翻译自网址:https://blog.floydhub.com/checkpointing-tutorial-for-tensorflow-keras-and-pytorch/定义:在模型生成的过程中,用来记录关键点的文件,例如在游戏打boss前需要存游戏进度一样。checkpoint文件包含的内容:1)模型的结构(architecture),在模型重建时起到关键作用2)模型的权重(weight)3)训练的参数(loss,optimizer,epochs等)4)优化器的状态,允许在您停止的地方

2020-05-12 11:57:11 3141

原创 引入python模块的问题

错误类型:ImportError: attempted relative import with no known parent package(即python无法找到相应的包)文件的目录如下:|--transformer |--src |--transformer current.py configuration_bert.pyimport代码:from configuration_bert import BertConfig修改为:–&

2020-05-12 11:08:03 524

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除