自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(29)
  • 收藏
  • 关注

原创 Task5 模型融合

Task5 模型融合Tip:此部分为零基础入门金融风控的 Task5 模型融合部分,欢迎大家后续多多交流。赛题:零基础入门数据挖掘 - 零基础入门金融风控之贷款违约预测项目地址:https://github.com/datawhalechina/team-learning-data-mining/tree/master/FinancialRiskControl比赛地址:https://tianchi.aliyun.com/competition/entrance/531830/introductio

2020-09-27 22:29:47 299

原创 Task4 建模调参

Task4 建模与调参此部分为零基础入门金融风控的 Task4 建模调参部分,带你来了解各种模型以及模型的评价和调参策略,欢迎大家后续多多交流。赛题:零基础入门数据挖掘 - 零基础入门金融风控之贷款违约预测项目地址:https://github.com/datawhalechina/team-learning-data-mining/tree/master/FinancialRiskControl比赛地址:https://tianchi.aliyun.com/competition/entrance

2020-09-24 22:05:55 395

原创 Task3 特征工程

Task3 特征工程此部分为零基础入门金融风控的 Task3 特征工程部分,带你来了解各种特征工程以及分析方法,欢迎大家后续多多交流。赛题:零基础入门数据挖掘 - 零基础入门金融风控之贷款违约项目地址:https://github.com/datawhalechina/team-learning-data-mining/tree/master/FinancialRiskControl比赛地址:https://tianchi.aliyun.com/competition/entrance/531830

2020-09-21 23:23:06 336

原创 Task2 数据分析

Task2 数据分析此部分为零基础入门金融风控的 Task2 数据分析部分,带你来了解数据,熟悉数据,为后续的特征工程做准备,欢迎大家后续多多交流。赛题:零基础入门数据挖掘 - 零基础入门金融风控之贷款违约目的:1.EDA价值主要在于熟悉了解整个数据集的基本情况(缺失值,异常值),对数据集进行验证是否可以进行接下来的机器学习或者深度学习建模.2.了解变量间的相互关系、变量与预测值之间的存在关系。3.为特征工程做准备项目地址:https://github.com/datawhal

2020-09-18 22:26:43 322

原创 零基础入门金融风控-贷款违约预测

赛题理解赛题以金融风控中的个人信贷为背景,要求选手根据贷款申请人的数据信息预测其是否有违约的可能,以此判断是否通过此项贷款,这是一个典型的分类问题。通过这道赛题来引导大家了解金融风控中的一些业务背景,解决实际问题,帮助竞赛新人进行自我练习、自我提高。train.csv数据说明:id 为贷款清单分配的唯一信用证标识loanAmnt 贷款金额term 贷款期限(year)interestRate 贷款利率installment 分期付款金额grade 贷款等级subGrade 贷款等级之子

2020-09-15 23:12:40 1795

原创 Task6 基于深度学习的文本分类3

Task6 基于深度学习的文本分类3基于深度学习的文本分类学习目标了解Transformer的原理和基于预训练语言模型(Bert)的词表示学会Bert的使用,具体包括pretrain和finetune文本表示方法Part4Transformer原理Transformer是在"Attention is All You Need"中提出的,模型的编码部分是一组编码器的堆叠(论文中依次堆叠六个编码器),模型的解码部分是由相同数量的解码器的堆叠。我们重点关注编码部分。他们结构完全相同,但是并不

2020-08-04 22:20:42 156

原创 Task5 基于深度学习的文本分类2

Task5 基于深度学习的文本分类2在上一章节,我们通过FastText快速实现了基于深度学习的文本分类模型,但是这个模型并不是最优的。在本章我们将继续深入。基于深度学习的文本分类本章将继续学习基于深度学习的文本分类。学习目标学习Word2Vec的使用和基础原理学习使用TextCNN、TextRNN进行文本表示学习使用HAN网络结构完成文本分类文本表示方法 Part3词向量本节通过word2vec学习词向量。word2vec模型背后的基本思想是对出现在上下文环境里的词进行预测。对于每

2020-07-29 21:40:42 344

原创 Task4 基于深度学习的文本分类1

Task4 基于深度学习的文本分类1在上一章节,我们使用传统机器学习算法来解决了文本分类问题,从本章开始我们将尝试使用深度学习方法。基于深度学习的文本分类与传统机器学习不同,深度学习既提供特征提取功能,也可以完成分类的功能。从本章开始我们将学习如何使用深度学习来完成文本表示。学习目标学习FastText的使用和基础原理学会使用验证集进行调参文本表示方法 Part2现有文本表示方法的缺陷在上一章节,我们介绍几种文本表示方法:One-hotBag of WordsN-gramTF

2020-07-27 23:03:54 162

原创 Task3 基于机器学习的文本分类

Task3 基于机器学习的文本分类在上一章节,我们对赛题的数据进行了读取,并在末尾给出了两个小作业。如果你顺利完成了作业,那么你基本上对Python也比较熟悉了。在本章我们将使用传统机器学习算法来完成新闻分类的过程,将会结束到赛题的核心知识点。基于机器学习的文本分类在本章我们将开始使用机器学习模型来解决文本分类。机器学习发展比较广,且包括多个分支,本章侧重使用传统机器学习,从下一章开始是基于深度学习的文本分类。学习目标学会TF-IDF的原理和使用使用sklearn的机器学习模型完成文本分类

2020-07-25 23:16:05 187

原创 Task2 数据读取与数据分析

Task2 数据读取与数据分析在上一章节,我们给大家简单介绍了赛题的内容和几种解决方案。从本章开始我们将会逐渐带着大家使用思路1到思路4来完成本次赛题。在讲解工具使用的同时,我们还会讲解一些算法的原理和相关知识点,并会给出一定的参考文献供大家深入学习。数据读取与数据分析本章主要内容为数据读取和数据分析,具体使用Pandas库完成数据读取操作,并对赛题数据进行分析构成。学习目标学习使用Pandas读取赛题数据分析赛题数据的分布规律数据读取赛题数据虽然是文本数据,每个新闻是不定长的,但任然使

2020-07-22 23:09:47 134

原创 关于新闻文本分类赛题理解

Task1 赛题理解本章将会对新闻文本分类进行赛题讲解,对赛题数据进行说明,并给出解题思路。赛题理解赛题名称:零基础入门NLP之新闻文本分类赛题目标:通过这道赛题可以引导大家走入自然语言处理的世界,带大家接触NLP的预处理、模型构建和模型训练等知识点。赛题任务:赛题以自然语言处理为背景,要求选手对新闻文本进行分类,这是一个典型的字符识别问题。学习目标理解赛题背景与赛题数据完成赛题报名和数据下载,理解赛题的解题思路赛题数据赛题以匿名处理后的新闻数据为赛题数据,数据集报名后可见并可下

2020-07-21 22:29:06 174

原创 零基础入门CV - Task 05 模型集成

零基础入门CV赛事-Task5 模型集成在上一章我们学习了如何构建验证集,如何训练和验证。本章作为本次赛题学习的最后一章,将会讲解如何使用集成学习提高预测精度。5 模型集成本章讲解的知识点包括:集成学习方法、深度学习中的集成学习和结果后处理思路。5.1 学习目标学习集成学习方法以及交叉验证情况下的模型集成学会使用深度学习模型的集成学习5.2 集成学习方法在机器学习中的集成学习可以在一定程度上提高预测精度,常见的集成学习方法有Stacking、Bagging和Boosting,同时这些集成

2020-06-02 18:05:12 134

原创 零基础入门CV - Task 04 模型训练与验证

零基础入门CV赛事-Task4 模型训练与验证在上一章节我们构建了一个简单的CNN进行训练,并可视化了训练过程中的误差损失和第一个字符预测准确率,但这些还远远不够。一个成熟合格的深度学习训练流程至少具备以下功能:在训练集上进行训练,并在验证集上进行验证;模型可以保存最优的权重,并读取权重;记录下训练集和验证集的精度,便于调参。4 模型训练与验证为此本章将从构建验证集、模型训练和验证、模型保存与加载和模型调参几个部分讲解,在部分小节中将会结合Pytorch代码进行讲解。4.1 学习目标理

2020-05-30 21:43:18 289

原创 零基础入门CV - Task 03 字符识别模型

零基础入门CV赛事-Task3 字符识别模型在前面的章节,我们讲解了赛题的背景知识和赛题数据的读取。本章开始构建一个字符识别模型,基于对赛题理解本章将构建一个定长多字符分类模型。3 字符识别模型本章将会讲解卷积神经网络(Convolutional Neural Network, CNN)的常见层,并从头搭建一个字符识别模型。3.1 学习目标学习CNN基础和原理使用Pytorch框架构建CNN模型,并完成训练3.2 CNN介绍卷积神经网络(简称CNN)是一类特殊的人工神经网络,是深度学习中

2020-05-26 22:08:33 161

原创 零基础入门CV - Task 02 数据读取与数据扩增

零基础入门CV赛事-Task2 数据读取与数据扩增在上一章节,我们给大家讲解了赛题的内容和三种不同的解决方案。从本章开始我们将逐渐的学习使用【定长字符识别】思路来构建模型,逐步讲解赛题的解决方案和相应知识点。2 数据读取与数据扩增本章主要内容为数据读取、数据扩增方法和Pytorch读取赛题数据三个部分组成。2.1 学习目标学习Python和Pytorch中图像读取学会扩增方法和Pytorch读取赛题数据2.2 图像读取由于赛题数据是图像数据,赛题的任务是识别图像中的字符。因此我们首先需要

2020-05-23 21:02:47 299

原创 零基础入门CV - Task 01 赛题理解

零基础入门CV赛事-Task1 赛题理解本章内容将会对街景字符识别赛题进行赛题背景讲解,对赛题数据的读取进行说明,并给出集 中解题思路。1 赛题理解赛题名称:零基础入门CV之街道字符识别赛题目标:通过这道赛题可以引导大家走入计算机视觉的世界,主要针对竞赛选手上手视觉赛题,提高对数据建模能力。赛题任务:赛题以计算机视觉中字符识别为背景,要求选手预测街道字符编码,这是一个典型的字符识别问题。为了简化赛题难度,赛题数据采用公开数据集SVHN,因此大家可以选择很多相应的paper作为思路参考。1

2020-05-20 21:41:39 213

原创 Task5 svm

学习内容SVM 硬间隔原理SVM 软间隔SMO 求解SVM代码设计1、硬间隔本文是需要一定基础才可以看懂的,建议先看看参考博客,一些疑惑会在文中直接提出,大家有额外的疑惑可以直接评论,有问题请直接提出,相互交流。SVM-统计学习基础一开始讲解了最小间距超平面:所有样本到平面的距离最小。而距离度量有了函数间隔和几何间隔,函数间隔与法向量www和bbb有关,www变为2w2w2w则...

2020-05-01 18:05:23 166

原创 Task4 条件随机场

条件随机场马尔可夫过程定义假设一个随机过程中,tnt_ntn​ 时刻的状态xnx_nxn​的条件发布,只与其前一状态xn−1x_{n-1}xn−1​ 相关,即:P(xn∣x1,x2,...,xn−1)=P(xn∣xn−1) P(x_n|x_1,x_2,...,x_{n-1}) = P(x_n|x_{n-1})P(xn​∣x1​,x2​,...,xn−1​)=P(xn​∣xn−1​...

2020-04-29 23:09:39 150

原创 Task3 EM

前言EM算法是机器学习十大算法之一,它很简单,但是也同样很有深度,简单是因为它就分两步求解问题,E步:求期望(expectation)M步:求极大(maximization)深度在于它的数学推理涉及到比较繁杂的概率公式等,所以本文会介绍很多概率方面的知识,不懂的同学可以先去了解一些知识,当然本文也会尽可能的讲解清楚这些知识,讲的不好的地方麻烦大家评论指出,后续不断改进完善。EM算法引...

2020-04-26 18:03:57 224

原创 Task2 朴素贝叶斯

知识点梳理相关概念(生成模型、判别模型)先验概率、条件概率贝叶斯决策理论贝叶斯定理公式极值问题情况下的每个类的分类概率下溢问题如何解决零概率问题如何解决?优缺点sklearn参数详解,Python绘制决策树sklearn接口from sklearn.naive_bayes import GaussianNBfrom sklearn.datasets import loa...

2020-04-23 20:57:41 277

原创 task1_线性回归

在学习的过程中,对于欠拟合和过拟合这两个概念总有点模糊,现在分享下自己对这两个概念的理解。 无论是在机器学习还是深度学习建模当中都可能会遇到两种最常见结果,一种是过拟合(over-fitting),另一种叫做欠拟合(under-fitting)。所谓过拟合(over-fitting)其实就是所建的机器学习模型或者是深度学习模型在训练样本中表现得过于优越,导致在验证数据集以及测试数...

2020-04-21 22:03:18 423

原创 零基础入门数据挖掘-模型融合

# 查看数据文件目录 list datalab files!ls datalab/# 查看个人永久空间文件 list files in your permanent storage!ls /home/tianchi/myspace/# 查看当前kernel下已安装的包 list packages!pip list --format=columns# 绘图案例 an exa...

2020-04-04 18:52:28 507

原创 零基础入门数据挖掘-调参

#读取数据import pandas as pdimport numpy as npimport warningswarnings.filterwarnings('ignore')#reduce_mem_usage 函数通过调整数据类型,帮助我们减少数据在内存中占用的空间def reduce_mem_usage(df): """ iterate through all the...

2020-04-01 19:15:46 224

原创 零基础入门数据挖掘-特征工程

此部分介绍各种特征工程以及分析方法以及实现方法,对特征进一步分析。常见的特征工程有:1.异常处理:通过箱线图分析删除异常值;BOX-COX转换(处理有偏分布);长尾截断2.特征归一化/标准化:标准化(转换为标准正态分布);归一化(转换到[0,1]区间);针对幂律分布,可以采用公式 ????????????((1+????)/(1+????????????????????????))3.数据分桶:等频分桶;等距分桶;Best-KS 分桶(类...

2020-03-28 20:18:47 404

原创 零基础入门数据挖掘-二手车交易价格预测之数据分析

以二手车交易价格预测为例来入门数据挖掘,本部分对数据进行分析,从而理解熟悉数据,完成对数据的探索性分析。 1.引入各种数据科学以及可视化库: 1)数据科学库: pandas、numpy、scipy 2)可视化库: matplotlib、seaborn 2.载入数据: 载入数据集和测试集(pd.read_csv),简略管擦数据head()+shape,describe(...

2020-03-24 20:49:08 1007

原创 文本分类

文本分类是自然语言处理的一个常见任务,它把一段不定长的文本序列变换为文本的类别。本节关注它的一个子问题:使用文本情感分类来分析文本作者的情绪。这个问题也叫情感分析,并有着广泛的应用。同搜索近义词和类比词一样,文本分类也属于词嵌入的下游应用。在本节中,我们将应用预训练的词向量和含多个隐藏层的双向循环神经网络与卷积神经网络,来判断一段不定长的文本序列中包含的是正面还是负面的情绪。时序最大池化层类...

2020-02-25 19:39:56 263

原创 过拟合欠拟合及其解决方案;梯度消失梯度爆炸;循环神经网络进阶;机器翻译及相关技术;注意力机制与Seq2seq模型;Transformer;卷积神经网络基础;leNet;卷积神经网络进阶

1.过拟合欠拟合及其解决方案

2020-02-19 19:50:36 1102

原创 文本预处理,语言模型,循环神经网络

1.文本预处理文本是一类序列数据,一篇文章可以看作是字符或单词的序列,本节将介绍文本数据的常见预处理步骤,预处理通常包括四个步骤:读入文本分词建立字典,将每个词映射到一个唯一的索引(index)将文本从词的序列转换为索引的序列,方便输入模型2语言模型一段自然语言文本可以看作是一个离散时间序列,给定一个长度为TTT的词的序列w1,w2,…,wTw_1, w_2, \ldots, w...

2020-02-14 20:58:36 280

原创 线性回归、Softmax与分类模型、多层感知机

1.线性回归的基本要素模型,数据集,损失函数,优化函数(梯度下降)矢量计算以预测房价为例,假设房屋的价格只取决于房屋状况的两个因素,即面积(平方米)和房龄(年)模型:线性回归假设输出与各个输入之间是线性关系----price=warea⋅area+wage⋅age+b\mathrm{price} = w_{\mathrm{area}} \cdot \mathrm{area} + w_{\m...

2020-02-14 16:08:02 276

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除