Ashe_yang-CSDN博客

原创李宏毅机器学习笔记_task2_回归

回归回归定义回归即是输入特征,训练机器对目标值的拟合能力,在传统线性回归当中,目标值为数值型变量,有回归变种例如逻辑回归,目标值为分类变量应用举例股市预测（Stock market forecast）输入：过去10年股票的变动、新闻咨询、公司并购咨询等输出：预测股市明天的平均值自动驾驶（Self-driving Car）输入：无人车上的各个sensor的数据，例如路况、测出的车距等输出：方向盘的角度商品推荐（Recommendation）输入：商品A的特性，商品B的特性输出：购买商品

2021-09-16 01:37:43 165

原创李宏毅机器学习笔记_task1

机器学习：机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习相关技术监督学习现有数据集有已知的标签，通过数据让机器拟合特征与标签之间的关系，在输入新特征时对新标签进行预测。监督学习任务主要包含回归以及分类回归：标签值为连续性数值型变量；分类：标签主要为类别型变量无监督学习现有数据集有已知的标签，通过数据让机器拟合样本特征间的关系，

2021-09-14 02:03:29 117

原创 nlp入门_task2：gpt

GPT语言模型基本上是一个机器学习模型，它可以根据句子的一部分预测下一个词。最著名的语言模型就是手机键盘，它可以根据你输入的内容，提示下一个单词。GPT2 和语言模型从这个意义上讲，GPT-2 基本上就是键盘应用程序中预测下一个词的功能，但 GPT-2 比你手机上的键盘 app 更大更复杂。GPT-2 是在一个 40 GB 的名为 WebText 的数据集上训练的，OpenAI 的研究人员从互联网上爬取了这个数据集，作为研究工作的一部分。从存储空间大小方面来比较，我使用的键盘应用程序 SwiftKe

2021-08-20 23:06:31 875

原创 nlp入门_task1：attention&transformers

ps：QAQ这周离了各大谱加班加的神志不清，先上attention学习记录，预计周六补完剩下的学习笔记，小本本记下。attention1、seq2seq一个序列到序列（seq2seq）模型，接收的输入是一个（单词、字母、图像特征）序列，输出是另外一个序列。在神经机器翻译中，一个序列是指一连串的单词。类似地，输出也是一连串单词。seq2seq模型是由编码器（Encoder）和解码器（Decoder）组成的。其中，编码器会处理输入序列中的每个元素，把这些信息转换为一个向量（称为上下文（context）

2021-08-19 02:28:20 169

原创异常检测--task5：高维异常检测

集成方法–feature bagging、孤立森林1、引言在实际场景中，很多数据集都是多维度的。随着维度的增加，数据空间的大小（体积）会以指数级别增长，使数据变得稀疏，这便是维度诅咒的难题。维度诅咒不止给异常检测带来了挑战，对距离的计算，聚类都带来了难题。例如基于邻近度的方法是在所有维度使用距离函数来定义局部性，但是，在高维空间中，所有点对的距离几乎都是相等的（距离集中），这使得一些基于距离的方法失效。在高维场景下，一个常用的方法是子空间方法。集成是子空间思想中常用的方法之一，可以有效提高数据挖掘算法

2021-05-24 01:53:40 124

原创异常检测--task4：基于相似度的方法

异常检测–基于相似度的方法（基于距离、基于密度）1、概述异常值通常指具有特定业务意义的那一类特殊的异常值。噪声可以视作特性较弱的异常值，没有被分析的价值。噪声和异常之间、正常数据和噪声之间的边界都是模糊的。异常值通常具有更高的离群程度分数值，同时也更具有可解释性。在普通的数据处理中，我们常常需要保留正常数据，而对噪声和异常值的特性则基本忽略。但在异常检测中，我们弱化了“噪声”和“正常数据”之间的区别，专注于那些具有有价值特性的异常值。在基于相似度的方法中，主要思想是异常点的表示与正常点不同。2、基于

2021-05-21 02:25:24 436

原创异常检测task2--基于统计学的方法

#- -因为上次顺序弄错了，这次把统计学的方法补上主要内容包括：高斯分布、箱线图、HBOS1、概述统计学会对数据的正常性做出假设，他假定正常数据由模型产生，不遵守该规律的数据为异常，统计数据所做的统计模型假定是否成立异常检测的统计学方法的一般思想是：学习一个拟合给定数据集的生成模型，然后识别该模型低概率区域中的对象，把它们作为异常点。统计学主要包含两种方法：参数方法与非参数方法–1）参数方法假定正常的数据对象被一个以Θ为参数的参数分布产生。该参数分布的概率密度函数f(x,Θ)给出对象x被该分布产

2021-05-18 02:44:40 284

原创异常检测task2--线性模型

#异常检测——线性相关方法主要内容包括：线性回归主成分分析1、引言真实数据集中不同维度的数据通常具有高度的相关性，这是因为不同的属性往往是由相同的基础过程以密切相关的方式产生的。在古典统计学中，这被称为——回归建模，一种参数化的相关性分析。一类相关性分析试图通过其他变量预测单独的属性值，另一类方法用一些潜在变量来代表整个数据。前者的代表是线性回归，后者一个典型的例子是主成分分析。本文将会用这两种典型的线性相关分析方法进行异常检测。需要明确的是，这里有两个重要的假设：假设一：

2021-05-15 02:18:25 175

原创异常检测task1：异常检测介绍

概述（手动笔记）一、什么是异常检测1、异常检测：识别与正常数据不同的数据，与预期行为差距大的数据2、异常的类别1）点异常：大多数个体正常，少数异常2）条件异常：特定情境下个体实例异常，其他情景下是正常的3）群体异常：群体集合中的个体异常，个体实例可能并非异常3、异常检测的任务分类：有监督、无监督、半监督4、异常检测场景：故障、医疗日常、网络入侵、反欺诈、反作弊等等5、异常检测难点1）数据量少，类别标签不平衡2）噪音二、异常检测方法1、基础方法1）基于统计学的方法：假定数据服从正态

2021-05-12 00:59:03 165

原创 5、numpy课后作业：大作业

2020-12-01 23:49:29 167

原创 4、numpy课后作业：线性代数

2020-11-29 22:30:02 157

原创 3、numpy课后作业：统计方法

2020-11-27 23:40:52 145

原创 2、numpy课后作业：随机抽样

2020-11-25 22:02:22 138 3

原创 1、numpy课后作业：输入与输出

2020-11-23 21:50:45 161 2

原创金融风控学习笔记-5

这里简单回顾一下stacking模型融合的思想Stacking模型本质上是一种分层的结构，这里简单起见，只分析二级Stacking。假设我们有3个基模型M1、M2、M3。基模型M1，对训练集train训练，然后用于预测train和test的标签列，将预测的训练集和测试集的结果（即预测出的y）分别作为P1，T1对于M2和M3，重复相同的工作，这样也得到P2，T2，P3，T3。分别把P1，P2，P3以及T1，T2，T3合并，得到一个新的训练集和测试集train2，test2.再用第二层的

2020-09-27 21:42:32 150

原创金融风控学习笔记-4

调参最近才研究catboost 所以本文主要记录catboost的学习笔记整理一下里面简单的教程和参数介绍，很多参数不是那种重要，只解释部分重要的参数，训练时需要重点考虑的。import numpy as npimport catboost as cb train_data = np.random.randint(0, 100, size=(100, 10))train_label = np.random.randint(0, 2, size=(100))test_data = np.ran

2020-09-24 21:55:47 180

原创金融风控学习笔记-3

EDA-数据探索性分析这一篇主要是对EDA-数据探索性分析模块做一个总结归纳概述EDA（Exploratory Data Analysis），全名数据探索性分析，是通过了解数据集，了解变量间的相互关系以及变量与预测值之间的关系，从而帮助我们后期更好地进行特征工程和建立模型，是数据挖掘中十分重要的一步。大致步骤1、数据总览2、查看数据的缺失值与异常值3、查看特征变量的分布与目标变量的分布4、将特征划分为数值特征、分类特征，然后对特征进行更细致的探索分析1、数据总览接手数据后大致浏览数据情况

2020-09-21 20:35:00 205

原创金融风控学习笔记-2

emmmmm，因为这周忙成狗（T,T小小抱怨一下），所以在赛题上耽搁了不少，本期文章主要以风控业务的分享为主，想到哪说那，同时也是一个自己刚踏入风控行业没多久的一点积累的回顾。ps：现阶段可能存在误解，欢迎指正~关于实际业务场景模型的选择实际业务中最后输出的一般都是评分卡模型，这里简单说明一下评分卡，由机器学习模型输出概率加上人为的变换将概率输出成分数，其每个分数段可以一一对应模型输出的概率段。为何选用评分卡：1、首先这是一个行业大佬们沿用已久的风控模式，用的舒心，用的放心。2、评分卡的评价标

2020-09-18 23:22:54 207

原创金融风控学习笔记-1

1、数据清洗1）将数据根据数据类型划分，分别分成分类变量与连续变量2）观察训练集与测试集特征分布3）缺失值策略选择：填充缺失值或者讲缺失值设为某一常数4）异常值处理2、特征工程1）将类别变量做labelencoding2）n系列变量特征衍生：两两相减与相除、联合3个变量做标准差（衍生结束数据集过大，待优化）3、模型训练1、尝试使用lr最优分箱策略，线上AUC：0.72、尝试使用catboost拟合数值变量+贷款等级+贷款子集，线上AUC：0.727...

2020-09-15 23:14:16 280

原创关于sql case when 函数条件筛选的妙用

case when函数基础使用方法人员编号1 2019-07-18 00:00:001 2019-07-22 00:00:001 2019-07-11 00:00:002 2019-08-30 00:00:002 2019-10-15 00:00:002 2019-07-14 00:00:003 2019-07-01 00:00:003 2019-09-20 00:00:003...

2019-11-26 20:55:52 2022

Ashe_yang的博客