自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

转载 金融数据_建模与调参

目录:建模与调参风控建模常用模型逻辑回归BaggingBoostingGBDT参数调整网格搜索随机搜索贝叶斯优化建模与调参风控建模常用模型逻辑回归Logistic Regression 虽然被称为回归,但其实际上是分类模型,并常用于二分类。Logistic Regression 因其简单、可并行化、可解释强深受工业界喜爱。Logistic 回归的本质是:假设数据服从这个分布,然后使用极大似然估计做参数的估计。Logistic 分布是由其位置和尺度参数定义的连续分布。Logistic 分布的形状与

2020-09-24 15:37:19 35

转载 金融数据_特征工程

目录:学习目标学习内容学习笔记数据预处理异常值处理数据分箱特征交互特征编码特征选择学习目标学习特征预处理、缺失值、异常值处理、数据分桶等特征处理方法学习特征交互、编码、选择的相应方法学习内容1.数据预处理(1)标题缺失值的填充(2)时间格式处理(3)对象类型特征转换到数值2.异常值处理(1)基于3-sigma原则(2)基于箱型图3.数据分箱(1)固定宽度分箱(2)分位数分箱 【1. 离散数值型数据分箱 2. 连续数值型数据分箱】(3)卡方分箱(选做作业)4.特征交互(1)特

2020-09-22 00:11:42 25

原创 金融数据_数据预处理

目录:数据总体了解:缺失值和唯一值:深入数据-查看数据类型总结:数据总体了解:读取数据集并了解数据集大小,原始特征维度;import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport seaborn as snsimport datetimeimport warningswarnings.filterwarnings('ignore')data_train = pd.read_csv('train.

2020-09-18 21:42:42 65

原创 金融数据_赛题理解之评价指标

目录:学习笔记1——赛题理解1.评测指标2.AUC3.KS(Kolmogorov-Smirnov)学习笔记1——赛题理解1.评测指标评价标准为类别f1_score的均值,结果越大越好。F1=2∗(precision∗recallprecision+recall){F1} = 2*(\frac{{precision}*{recall} }{{precision}+{recall}})F1=2∗(precision+recallprecision∗recall​)其中precision为精确率pre

2020-09-14 20:52:48 33

原创 NLP入门 Task6 基于深度学习的文本分类3-BERT

在datawhale组织的天池大赛学习:入门NLP(以新闻文本分类赛事进行学习)。目录:一、基于Bert的文本分类二、baseline三、学习参考笔记一、基于Bert的文本分类预训练过程使用了Google基于Tensorflow发布的BERT源代码。首先从原始文本中创建训练数据,由于本次比赛的数据都是ID,这里重新建立了词表,并且建立了基于空格的分词器。二、baselineDatawhale零基础入门NLP赛事 - Task6 基于深度学习的文本分类3-BERT三、学习参考笔记Task 6:基

2020-08-04 21:45:34 37

原创 NLP入门Task5 基于深度学习的文本分类2-3TextRNN

在datawhale组织的天池大赛学习:入门NLP(以新闻文本分类赛事进行学习)。目录:一、TextRNN二、baseline三、学习参考笔记一、TextRNNTextRNN利用RNN(循环神经网络)进行文本特征抽取,由于文本本身是一种序列,而LSTM天然适合建模序列数据。TextRNN将句子中每个词的词向量依次输入到双向双层LSTM,分别将两个方向最后一个有效位置的隐藏层拼接成一个向量作为文本的表示。二、baseline零基础入门NLP赛事 - Task5 基于深度学习的文本分类2-3Te

2020-07-31 22:38:42 66

转载 NLP入门Task4 基于深度学习的文本分类1-fastText(以新闻文本分类赛事进行学习)

在datawhale组织的天池大赛学习:入门NLP(以新闻文本分类赛事进行学习)。本章开始我们将尝试使用深度学习方法。目录:Task4 基于深度学习的文本分类1-fastText学习目标文本表示方法 Part2现有文本表示方法的缺陷FastText基于FastText的文本分类如何使用验证集调参如何使用验证集调参本章小结Task4 基于深度学习的文本分类1-fastText与传统机器学习不同,深度学习既提供特征提取功能,也可以完成分类的功能。从本章开始我们将学习如何使用深度学习来完成文本表示。学习

2020-07-27 22:51:01 36

转载 NLP入门Task3 利用机器学习算法对文本进行分类学习(以新闻文本分类赛事进行学习)

在上一章节,我们对赛题的数据进行了读取,并在末尾给出了两个小作业。如果你顺利完成了作业,那么你基本上对Python也比较熟悉了。在本章我们将使用传统机器学习算法来完成新闻分类的过程,将会结束到赛题的核心知识点。Task3 基于机器学习的文本分类在本章我们将开始使用机器学习模型来解决文本分类。机器学习发展比较广,且包括多个分支,本章侧重使用传统机器学习,从下一章开始是基于深度学习的文本分类。学习目标学会TF-IDF的原理和使用使用sklearn的机器学习模型完成文本分类机器学习模型机器学习是对能

2020-07-25 19:11:09 52

原创 NLP入门Task2 数据读取与数据分析(以新闻文本分类赛事进行学习)

在datawhale组织的天池大赛学习:入门NLP(以新闻文本分类赛事进行学习)。本节内容主要以Pandas对数据进行读取和分析。目录:一、数据读取及查看二、数据分析1. 句子长度分析2. 新闻类别分析3. 字符数量统计三、结论四、作业一、数据读取及查看读取数据集并查看:import pandas as pdimport numpy as npimport matplotlib.pyplot as plt%matplotlib inlinedf = pd.read_csv('input/

2020-07-22 16:58:22 74

转载 NLP入门Task1(以新闻文本分类赛事进行学习)

在datawhale组织中报名学习:入门NLP(以新闻文本分类赛事进行学习)。文章目录目录:1.赛题理解2.赛题目标3.赛题数据4.数据标签5.评测指标6.数据读取7.解题思路1.赛题理解赛题名称:零基础入门NLP之新闻文本分类。赛题目标:通过这道赛题走入自然语言处理的世界,接触NLP的预处理、模型构建和模型训练等知识点。赛题任务:赛题以自然语言处理为背景,要求选手对新闻文本进行分类,这是一个典型的字符识别问题。2.赛题目标通过自然语言处理的方法,对新闻文本进行分类3.赛题数据赛题数据为

2020-07-21 20:28:02 38

空空如也

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除