通过GAN网络生成样本的一些想法创造数据

GAN的初始目的是基于大量的无标记数据无监督地学习生成器G,具备生成各种形态(图像、语音、语言等)的数据能力。随着研究的深入与发展,以生成图像为例,GAN能够生成百万级分辨率的高清图像[6]。实际上,GAN生成数据并不是无标记真实数据的单纯复现,而是具备一定的数据内插和外插作用,可以作为一种数据增...

2018-11-09 14:29:55

阅读数:41

评论数:0

##############缺失值填充的几种方法

常见的缺失值填充方法有填充默认值、均值、众数、KNN填充、以及把缺失值作为新的label通过模型来预测等方式,为了介绍这几种填充方法的使用以及填充效果,本文将在真实数据集上进行简单比较。 1. 数据集介绍 数据集来源于 天池精准医疗大赛——人工智能辅助糖尿病遗传风险预测。该数据集共有1000条...

2018-10-23 17:12:14

阅读数:92

评论数:0

谷歌传奇人物 Jeff Dean 联手顶级医学院,发表首篇电子病历 AI 论文

谷歌在ArXiv上公开了一篇论文,也很可能是谷歌使用深度学习模型在电子病历建模分析方面的首篇文章。这篇论文由“编译器从不警告Jeff,Jeff会警告编译器”的谷歌大脑高级研究员Jeff Dean率队,联合了UCSF、Stanford、UChicago等知名机构的众多大牛。 论文地址:https:...

2018-10-01 22:29:28

阅读数:173

评论数:0

手把手教你如何部署深度学习模型

摘要: 本文将讲解如何部署深度学习模型,让你不再对如何快速地将机器学习模型部署到生产中感到困扰 我刚刚训练了机器学习模型——那么现在呢? 这篇文章介绍了一种快速的方法,将经过训练的机器学习模型部署到生产中。 请阅读以下内容:如果您已经成功地使用诸如Tensorflow或Caffe这样的ML框...

2018-09-07 15:45:21

阅读数:217

评论数:0

评分卡的建立方法——分箱、WOE、IV、分值分配

信用评分卡模型在国外是一种成熟的预测方法,尤其在信用风险评估以及金融风险控制领域更是得到了比较广泛的使用,其原理是将模型变量WOE编码方式离散化之后运用logistic回归模型进行的一种二分类变量的广义线性模型。        本文重点介绍模型变量WOE以及IV原理,为表述方便,本文将模型目标标...

2018-08-22 09:10:36

阅读数:358

评论数:0

评分卡的建立方法——分箱、WOE、IV、分值分配

本文主要讲“变量选择”“模型开发”“评分卡创建和刻度” 变量分析 首先,需要确定变量之间是否存在共线性,若存在高度相关性,只需保存最稳定、预测能力最高的那个。需要通过 VIF(variance inflation factor)也就是 方差膨胀因子进行检验。 变量分为连续变量和分类变量。在...

2018-08-22 09:06:04

阅读数:431

评论数:0

NLP最新迁移学习方法微调语言模型,可将误差减少超过20%

可以这样说,迁移学习已经促使计算机视觉领域发生了具有革命性的变化,但对于自然语言处理(NLP)中的现有方法来说,仍然需要从零开始对其进行针对于特定任务的修改和训练。我们提出了微调语言模型(Fine-tuned Language Models,FitLaM),这是一种有效的迁移学习方法,可以应用于N...

2018-07-23 16:22:05

阅读数:116

评论数:0

数据挖掘模型中的IV和WOE详解

特征选择 (feature_selection)特征选择 (feature_selection)[toc]本文主要参考sklearn(0.18版为主,部分0.17)的1.13节的官方文档,以及一些工程实践整理而成。  当数据预处理完成后,我们需要选择有意义的特征输入机器学习的算法和模型进行训练。通...

2018-06-29 15:25:31

阅读数:497

评论数:0

DL4NLP —— seq2seq+attention机制的应用:文档自动摘要(Automatic Text Summarization)

两周以前读了些文档自动摘要的论文,并针对其中两篇( [2] 和 [3] )做了presentation。下面把相关内容简单整理一下。      文本自动摘要(Automatic Text Summarization)就是说在不改变文档原意的情况下,利用计算机程序自动地总结出文档的主要内容。自动摘要...

2018-06-06 15:20:33

阅读数:325

评论数:0

#####@@@#好好好好#####最全知识图谱介绍:关键技术、开放数据集、应用案例汇总

1 知识图谱构建技术本节首先给出知识图谱的技术地图,然后介绍知识图谱构建的关键技术,包括关系抽取技术、知识融合技术、实体链接技术和知识推理技术。1.1 知识图谱技术地图构建知识图谱的主要目的是获取大量的、让计算机可读的知识。在互联网飞速发展的今天,知识大量存在于非结构化的文本数据、大量半结构化的表...

2018-06-06 01:38:01

阅读数:616

评论数:0

########好好好########PSI的计算逻辑

群体稳定性指标(population stability index)公式: psi = sum((实际占比-预期占比)* ln(实际占比/预期占比))举个例子解释下,比如训练一个logistic回归模型,预测时候会有个类概率输出,p。在你的测试数据集上的输出设定为p1,将它从小到大排序后将数据集...

2018-04-18 11:26:00

阅读数:841

评论数:0

不均衡数据怎么破?对付它的七种武器!

先问大家一个问题:银行欺诈识别、市场实时交易、网络入侵检测等领域的数据集,有哪些共通点?答案是:“关键”事件在数据中的占比经常少于1%(例如:信用卡行骗者、点击广告的用户或被攻破的服务器的网络扫描)。然而,大多数机器学习算法在不均衡数据集的表现都不太好。以下七种技术可以帮到你,训练一个分类器用于检...

2018-03-12 09:58:41

阅读数:113

评论数:0

######好好好#####评分模型的检验方法和标准&信用评分及实现

评分模型的检验方法和标准通常有:K-S指标、交换曲线、AR值、Gini数等。例如,K-S指标是用来衡量验证结果是否优于期望值,具体标准为:如果K-S大于40%,模型具有较好的预测功能,发展的模型具有成功的应用价值。K-S值越大,表示评分模型能够将“好客户”、“坏客户”区分开来的程度越大。评分模型的...

2018-02-24 16:34:36

阅读数:492

评论数:0

机器学习、图像相关知识图谱

2017-12-27 13:25:03

阅读数:246

评论数:0

多分类问题multicalss classification

多分类问题:有N个类别C1,C2,...,Cn,多分类学习的基本思路是“拆解法”,即将多分类任务拆分为若干个而分类任务求解,最经典的拆分策略是:“一对一”,“一对多”,“多对多” (1)一对一 给定数据集D={(x1,y1),(x2,y2),...,(xn,yn)},yi€{c1,c2...

2017-12-27 11:37:53

阅读数:214

评论数:0

#####好好好#####特征离散化方法综述

致谢老婆大人为本期博客创作配图,你的支持是我坚持下去的动力 特征离散化系列一方法综述 数值离散化在数据挖掘和发现知识(data mining and knowledge discovery)方面扮演者重要的角色。许多研究表明归纳任务(induction tasks)能从离散化(discreti...

2017-12-14 10:23:33

阅读数:517

评论数:0

#####好######简单易学的机器学习算法——因子分解机(Factorization Machine)

一、因子分解机FM的模型    因子分解机(Factorization Machine, FM)是由Steffen Rendle提出的一种基于矩阵分解的机器学习算法。 1、因子分解机FM的优势     对于因子分解机FM来说,最大的特点是对于稀疏的数据具有很好的学...

2017-12-13 09:40:51

阅读数:559

评论数:0

大数据实时推荐-不只是统计

随着大数据时代的来临,如何帮助用户从大量信息中迅速获得对自己有用的信息成为众多商家的重要任务,个性化推荐系统应运而生。个性化推荐系统以海量数据挖掘为基础,引导用户发现自己的信息需求,现已广泛应用于很多领域。传统的个性化推荐系统,采用定期对数据进行分析的做法来更新模型。由于是定期更新,推荐模型无法保...

2017-12-04 19:43:28

阅读数:1150

评论数:0

一个Spark推荐系统引擎的实现

一个Spark推荐系统引擎的实现 阅读目录 前言第一步:提取有效特征第二步:训练推荐模型第三步:使用ALS推荐模型第四步:物品推荐第五步:推荐效果评估小结 回到顶部 前言        经过2节对MovieLens数据集的学习,想必读者对Movie...

2017-12-04 13:33:51

阅读数:249

评论数:0

sklearn聚类算法评估方法 之各种系数

python中的分群质量 主要参考来自官方文档:Clustering 部分内容来源于:机器学习评价指标大汇总 个人比较偏好的三个指标有:Calinski-Harabaz Index(未知真实index的模型评估)、Homogeneity, completeness and V-measure(聚...

2017-11-24 14:15:33

阅读数:5329

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭