自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(14)
  • 收藏
  • 关注

原创 AUC(二):AUC线上线下不一致

在实际业务中,经常会出现AUC线上线下不一致的情况。例如,在离线评估中,AUC提升,但线上指标下降。这篇文章参考2013年KDD论文《Predictive Model Performance: Offline and Online Evaluations》,讨论AUC的特性。本文假设读者对二分类模型的评估有基本的了解。关于AUC的基础知识,可参考http。优势在工业场景中,AUC常常被用来评价...

2019-04-23 11:10:28 4937

原创 AUC(一):AUC与Mann–Whitney U test

在算法面试中,常常会被一个问题AUC的物理含义是什么。本文参考论文1,介绍一下AUC的物理含义。概念在二分类模型中,预测值ppp表示事件发生的概率。对于分类任务,需要给出一个阈值(threshold)来判别哪些任务是正例、哪些是负例。AUC(Area Under the Curve)提供了一种判别所有阈值效果的指标。AUC的计算逻辑如下所示:将模型预测值排序对于每一个阈值计算TPR(Tr...

2019-04-19 12:20:46 6464 3

原创 代码(二) 手链有m个珠子共n种颜色

题目一一个手链有m个珠子共n种颜色,找出包含n种颜色的最短连续片段。例如手链[1,2,2,2,2,2,2,0],它的最短连续片段数为3。暴力破解遍历所有可能性,时间复杂度O(mn2)O(mn^2)O(mn2)方法一使用双指针的方法,记为start=0start=0start=0、end=0end=0end=0:向右移动endendend,直到[start,end][start, e...

2019-04-08 15:04:56 993

原创 代码(一) 进制转换

背景总结所有进制转化问题十进制转二十六进制问题描述在Excel中,列的名称是这样一个递增序列:A、B、C、…、Z、AA、AB、AC、…、AZ、BA、BB、BC、…、BZ、CA、…、ZZ、AAA、AAB…。我们需要将上述列名序列和以下自然数序列相互转换:1、2、3、…。问题分析正常而言,一个十进制数可以如下转换为二十六进制数num=a0×260+a1×261+a2×262+.......

2019-04-08 13:22:58 1102

原创 Lookalike(一):Lookalike技术调研

背景在线广告中,Lookalike能够帮助广告主高效的找到潜在用户。广告主上传少量的种子用户,Lookalike系统利用机器学习拓展出与种子用户相似的用户。例如,某APP希望增加激活用户。它可将已有用户作为种子,进而计算出相似用户。为了最大限度的提高潜在用户的质量,不同公司做了大量尝试:Yahoo:A Sub-linear, Massive-scale Look-alike Audien...

2018-09-12 17:52:34 7766

原创 fastText(三):微博短文本下fastText的应用(二)

上一篇讲到,fastText在训练数据中过拟合的问题。接下来将介绍一些提高fastText泛化能力的尝试。模型泛化使用过fastText的人,往往会被它的很多特性征服,例如训练速度、兼具word embedding和分类等。但是正如一个硬币有正反两面,fastText也并非完美,fastText的泛化性是它的短板。增加正则项在Logistic Regression中,调节正...

2018-08-21 15:09:08 3015 6

原创 fastText(二):微博短文本下fastText的应用(一)

众所周知,微博中的内容以短文本居多,文本内容随意性极强,这给建模增加了很大的难度。针对这一问题,这里分享一下fastText在微博短文本的应用。任务目标简单介绍一下整个任务的目标:给微博内容打上标签,例如美妆、宠物用品等。这类问题可以转化为经典的多分类问题。然而微博内容较短,并且文字随意性极强,这给整个建模任务增加了难度。考虑到文本分类是一类偏线性的问题,本次建模使用了fastText...

2018-08-21 15:05:13 4067 17

原创 fastText入门

简介fastText是Facebook AI Research在2016年提出的文本分类和词训练的工具。它最大的特点:模型非常简单,训练速度快,并且能够达到与深度学习旗鼓相当的精度。最近在做一个给微博内容分类的项目,主要目的是给微博打上商业标签。这个项目是一个经典的多分类任务,传统的方法包括:SVM、TextCNN、LSTM等。上面这些方法都略有尝试,而大名鼎鼎的fastText一直没有尝...

2018-08-21 14:54:54 1312

原创 6.信息论(一):信息量、熵和最优编码

前言信息论是由克劳德·香农发展,用来找出信号处理与通信操作的基本限制,如数据压缩、可靠的存储和数据传输等。自创立以来,已被应用多个领域,例如自然语言处理(NLP)、机器学习等领域。定长编码(Block Codes)让我们从一个例子开始。小明酷爱动物,日常谈吐中经常提及各种动物,包括:狗、猫、鱼和鸟。一天,小明见到小红(原谅我这么俗的名字),两个人决定用二进制的方式来交流。为了交流方便,小明和小红决定

2017-12-07 14:14:37 6232 2

原创 python(三):Python3—UnicodeEncodeError 'ascii' codec can't encode characters in position 0-1

Python3—UnicodeEncodeError 'ascii' codec can't encode characters in position 0-1

2017-11-15 10:52:53 37339 18

原创 python(二):使用multiprocessing中的常见问题

python多线程(multiprocessing)1.共享变量2.进程间通讯3.输入/输出

2017-11-06 14:05:31 12608 2

原创 python(一):multiprocessing——死锁

近年来,使用python的人越来越多,这得益于其清晰的语法、低廉的入门代价等因素。尽管python受到的关注日益增多,但python并非完美,例如被人诟病最多的GIL(值得注意的是,GIL并非python特性,它是在实现Python解析器(CPython)时所引入的一个概念,而CPython是大部分环境下默认的Python执行环境),全称Global Interpreter Lock。

2017-10-31 23:10:21 6664 1

原创 tensorflow(一):tf.contrib.seq2seq.GreedyEmbeddingHelper

关于tf.contrib.seq2seq.GreedyEmbeddingHelper的踩坑经历

2017-10-26 23:28:33 5836 4

原创 机器翻译(一):BLEU(bilingual evaluation understudy)

简介BLEU(bilingual evaluation understudy)是一种评价翻译质量的指标,该评价指标重点关注 相同文本下,机器与人翻译结果的近似程度即机器译文与参考译文的相似程度。

2017-10-18 23:04:16 3920

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除