自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

ZSY的大后台

心有所适,随遇而安

原创 机器学习、数据挖掘相关资源链接(持续补充...)

kaggle社区。全球最大的人工智能比赛社区。比赛众多,且种类难度都有分类。社区中各个比赛下,参赛者会在讨论区积极交流,提供kernel(解决方法)。对初学者也十分友好。 Competitions | Kaggle天池大数据比赛,阿里巴巴主办。很多赛题都来源于企业实际工作中遇到的难题。比赛普遍分...

2017-12-04 15:31:16 267 0

原创 论文列表——NAACL 2019

最近NAACL-2019接收列表出了,列出感兴趣的paper,供之后阅读: 名称 类型 关键字 阅读价值 笔记 Deep Adversarial Learning for NLP tutorial Transfer Learning in Natural Language...

2019-03-06 12:36:36 2223 1

原创 论文列表——杂

这篇博文主要是记录平常通过各类渠道(公众号推送、知乎浏览、博客阅读等等)获知的质量较高论文的笔记。可能有各个类别的,可能有几年的经典论文重读,或者是2018年好的科研成果,这里进行简要记录,之后基本都是要单开博文来详细写笔记的。 名称 来源 类型 时间 阅读价值 笔记 An Int...

2019-01-25 19:24:23 231 0

原创 论文列表——EMNLP 2018

EMNLP 2018去年十一月开完会了,又出了很多文章。根据自己的兴趣点选了一些,平常慢慢读,持续更新到这篇博文。这篇博文记录下这些文章的简要笔记,好的文章会标上“TO BE CONTINUED”,之后会再开单独的博文来做笔记。列表如下: 名称 类型 时间 阅读价值 笔记 Impr...

2019-01-25 18:36:47 1685 0

原创 论文列表——sentiment analysis

情感分类属于文本分类的一个应用场景,一般都是人(用户)对某些具体事物(商品、事件)表达某些情感。落地场景是很多的。这学期最开始是做stance detection相关的工作,而其中target-specific stance detection和情感分类中的aspect-based sentime...

2019-01-25 17:05:35 1937 1

原创 论文列表——stance detection

这学期做了一些和stance detection相关的工作,列出自己阅读论文的列表,部分论文直接列出一些简单的笔记,这些论文可读性不强(方法过于简单,或者论文本身的贡献不在方法上,没有太多记录成笔记的价值…),部分论文会逐步完善,给出简单的阅读笔记。阅读价值评分纯粹是基于自己对于文章的理解,标准包...

2019-01-25 15:44:24 964 0

原创 论文列表——text classification

列出自己阅读的text classification论文的列表,以后有时间再整理相应的笔记。阅读价值评分纯粹是基于自己对于文章的理解,标准包括:动机、方法、数据集质量、实验安排、相关工作等,满分为5。列表如下: 名称 所属会议 类型 时间 阅读价值 Recurrent Convol...

2018-10-04 15:57:01 1235 1

原创 论文列表——fake news

列出自己阅读的fake news detection论文的列表,以后有时间再整理相应的笔记。阅读价值评分纯粹是基于自己对于文章的理解,标准包括:动机、方法、数据集质量、实验安排、相关工作等,满分为5。列表如下: 名称 所属会议 类型 时间 阅读价值 “Liar, Liar Pant...

2018-10-04 15:28:27 1583 1

原创 笔记(总结)-注意力机制(Attention)简述

本篇主要针对注意力(Attention)机制进行简要描述。Attention是为了解决Sequence-to-Sequence中的一些问题而提出的,本身的逻辑十分简洁。Attention的产生过程反映了解决问题的一种最直接的思路,正如Resnet中提出“残差”的概念一样,简单直接的就能解决问题,而...

2018-07-20 09:33:52 1473 0

原创 笔记(总结)-序列标注问题与求解

在讲述了大量的概率图模型后,本篇介绍下它发挥作用的主要场景——序列标注(Sequence Labaling)。序列包括时间序列以及general sequence,但两者无异。连续的序列在分析时也会先离散化处理。常见的序列有如:时序数据、本文句子、语音数据、等等。常见的序列问题有: 拟合、预测...

2018-07-18 10:52:30 2823 0

原创 笔记(总结)-从马尔可夫模型到条件随机场-3

本篇紧接上篇笔记(总结)-从马尔可夫模型到条件随机场-2,讲述条件随机场(Conditional Random Field)。 条件随机场 定义 先给出几个相关概念的定义。 随机场:可看成是一组随机变量的集合(这组随机变量对应同一个样本空间)。这些随机变量之间可能有依赖关系...

2018-07-14 16:28:30 400 0

原创 笔记(总结)-从马尔可夫模型到条件随机场-2

本篇紧接上篇笔记(总结)-从马尔可夫模型到条件随机场-1,讲述最大熵模型(Maximum Entropy Model)。 最大熵模型 先来简单介绍下熵的概念,看看为什么要“最大熵”建模。 熵用来度量随机变量的不确定性。即熵越大,不确定性越大。 举个例子,给定一个骰子,问抛出去后...

2018-07-13 21:13:30 230 0

原创 笔记(总结)-从马尔可夫模型到条件随机场-1

本篇针对概率图模型做一个总结。顺序依次为: 马尔可夫模型(Markov Model,下称MM)⟹⟹\Longrightarrow 隐马尔可夫模型(Hidden Markov Model,下称HMM) 最大熵模型(Maximum Entropy Model,下称MEM)⟹⟹\Longright...

2018-07-12 10:36:23 914 0

原创 笔记(总结)-循环神经网络

起源 全连接神经网络能够很好地拟合复杂的样本特征,卷积神经网络能很好地建模局部与全局特征的关系。但它们都只能处理定长的输入、输出,而自然语言的处理对象一般是变长的语句,句子中各元素出现的顺序先后暗含着时序关系,循环神经网络(Recurrent Neural Network,下称RNN)能够较好地...

2018-07-11 22:25:49 236 0

原创 笔记(总结)-卷积神经网络

神经网络是一棵根深叶茂的大树,有过许多果实,可是都略显青涩,无法摘食。直到2010年后,这棵大树才真正可谓硕果累累,其中最璀璨甘甜的就是卷积神经网络(Convolutional Neural Network,下称CNN)。在这之后,神经网络再次成为科研界的热点,在这个数据和算力初具规模的时代,神经...

2018-07-11 09:47:21 153 0

原创 笔记(总结)-神经语言模型和词向量

之前笔记(总结)-统计语言模型主要介绍了统计语言模型。可以看到,最终对句子的建模为(以二元文法为例): P(S)=p(w1)p(w2|w1)...p(wn|wn−1)P(S)=p(w1)p(w2|w1)...p(wn|wn−1)P(S)=p(w_1)p(w_2|w_1)...p(w_n|w_{n...

2018-07-09 16:15:36 2128 0

原创 笔记(总结)-统计语言模型

在自然语言处理的相关问题中,如何表示句子是建模分析的关键。与传统的图像、音频等天然可转化为计算机编码的元素不同,自然语言需要经过复杂编码才能被计算机识别。并且,这种编码是机械式的简单排列,设计初衷是为了解决自然语言的存储问题,编码本身不带有任何语言层面的信息。因此,直接使用自然语言的编码对文字进行...

2018-07-09 11:34:35 354 0

原创 笔记-图嵌入(Graph Embedding)

图嵌入(Graph Embedding,也叫Network Embedding)是一种将图数据(通常为高维稠密的矩阵)映射为低微稠密向量的过程,能够很好地解决图数据难以高效输入机器学习算法的问题。知识图谱属于异构图数据,即节点与边不只一种类型。了解图嵌入能帮助理解图数据的处理过程,拓展思考问题的思...

2018-06-29 14:26:37 10707 0

原创 笔记-文本分类

文本分类是NLP领域最基本的应用场景,现实生活中很多问题都能划归为文本分类问题,诸如垃圾邮件分类、有害评论检测、新闻主题分类等。学术界里文本分类也是研究热点,从最初的模式识别方法到机器学习方法,再到近年来的深度学习方法,各类新型的算法都会尝试在文本分类上验证效果。而文本分类问题的普遍性也使得其成为...

2018-06-29 14:14:21 206 0

原创 笔记-变分自编码器(Variational Auto Encoder,VAE)

从大数据时代——>人工智能,生活中各场景下的大数据问题都能用大数据+人工智能算法的配方进行求解。诸如分类、回归等有监督学习问题都得到了很好的解决,但监督学习需要大量标注数据,这一限制使得很多场景无法依靠人工智能的红利。因此,无监督学习正慢慢成为研究热点。VAE便是其中的典型代表。VA...

2018-06-29 13:42:39 435 0

原创 笔记-AutoML

深度学习发展至今,虽然取得了很多成果,但其使用门槛依旧很高。对神经网络进行调参从而达到解决问题的效果,需要使用者具有一定的机器学习背景和调参经验,现实情况往往是(不论工业界还是学术界)使用学术界经过沉淀后的经典模型与典型参数设置,并在之上做细微的调整。这极大地限制了人们的思维,网络结构仍然是基于人...

2018-06-29 13:32:53 500 0

原创 笔记-CRF

CRF在序列标注任务上有着广泛的应用,由于使用了全局的信息,能取得比HMM更好的效果。学习参考链接如下: 如何用简单易懂的例子解释条件随机场(CRF)模型?它和HMM有什么区别? 基于CRF序列标注的中文依存句法分析器的Java实现 简明条件随机场CRF介绍 | 附带纯Keras实现 DL...

2018-06-29 12:47:50 132 0

原创 笔记-NLP相关调研

由于实验室目前研究方向偏重于NLP和知识图谱,在学习了一段时间机器学习相关内容后,也决定暂时侧重于NLP相关内容的研究。对NLP方面的相关调研工作做一个总结,顺序不分先后。这部分内容可能和笔记-深度学习场景调研有交集,在此就不重复写已有的东西。 依存句法分析(Dependency Parsing...

2018-06-29 11:41:17 207 1

原创 笔记-深度学习场景调研

深度学习的大潮如火如荼,但深度学习并非所有问题的最好答案。那么哪些方向已经较为成熟应用了深度学习并取得了较好效果呢,通过了解深度学习如何解决不同的问题,从而更深入理解深度学习算法的特点与适用性,做了相关调研,附上链接如下: 深度学习在图像领域的应用,图像分类、图像识别、语义分割、视频检测…这是深...

2018-06-29 10:56:55 358 0

原创 机器学习面试题-索引

做面试题是一个很好的回顾所学知识的方式。通常,面试官都有着非常扎实的基础和实践经验,提出的问题能更切中算法、模型的本质。通过面试题来检验自己的学习效果,是否对一个问题理解透彻,也能为将来可能的面试提前做一些准备。 本文对知乎专栏BAT机器学习面试1000题下的内容进行了总结索引,方便之后的查阅使...

2018-02-27 11:00:55 325 0

原创 笔记-Python库-matplotlib, numpy, scipy, pandas

用Python作数据分析时,常用的基础库有matplotlib, numpy, scipy, pandas,功能强大且繁杂。记下来所有的用法是不实际的,需要做的是记住每个库大概有哪些功能,在具体场景中能快速找到相关文档并使用。知乎上有个相关问题,下面高赞答案给出了很多学习资源和学习思路,可供参考和...

2018-02-11 16:54:09 240 0

原创 笔记(总结)-利用GMM和EM算法解决聚类问题

对Gaussian Mixture Model和Expectation Maximization算法一直以来了解不多,一来直接使用这两个方法的场景少,二来初看这两个算法确实有些一头雾水,不太理解为什么要这么做。上学期的课又涉及到了这部分,还是咬牙把这块给啃了下来,结合“周志华西瓜书”,在聚类场景下...

2018-02-09 17:10:01 448 0

原创 笔记-kagger都在用的python编辑器-Jupyter Notebook

经常逛kaggle社区的人常会在forum看到大家都是用notebook形式来进行代码组织和策略讲解。Jupyter就是这样一个工具,它允许你分块组织代码并分别执行,每个代码块都较为独立,而所有代码块又能共享中间结果,十分适用于做数据挖掘的实验。除此最基本的功能之外,Jupyter还有很多小tri...

2018-02-09 09:28:17 512 0

原创 kaggle-Corporación Favorita Grocery Sales Forecasting

该项比赛1月15日就已经结赛了,但由于之后进入期末,备考花费了大量的时间,没来得及整理相关内容。现在终于有时间好好回顾比赛,并对这次比赛的过程进行记录。 Corporación Favorita Grocery Sales Forecasting 本次比赛是预测商品销量,给出的训练数据为&...

2018-02-08 11:17:31 1482 4

原创 笔记(总结)-PCA(主成分分析)

主成分分析是一种特征抽取手段,通过将样本从原始空间映射到低维空间实现特征数量的减少,而低维空间中某一维度实际上是原始空间的一种“杂糅”表示。在之前的博客中提到过参考链接,由于PCA涉及的数学手段包括矩阵、特征值和特征向量,参考笔记-矩阵与特征值这一篇,对其有一定理解后再来看PCA算法就比较清晰了。...

2018-02-07 10:50:09 294 0

原创 笔记(总结)-SVM(支持向量机)的理解-4

前三篇主要是介绍SVM的原理。最初SVM的原问题是凸二次优化问题,有现成的算法可以求解,费尽周折转换到对偶问题,一是在对偶问题形势下可以使用核函数,二是对偶问题我们可以高效求解。本篇主要介绍如何求解SVM。 SMO:Sequential Minimal Optimization Coo...

2018-02-03 13:35:00 188 0

原创 笔记(总结)-SVM(支持向量机)的理解-3

上篇讲述的Soft Margin SVM是为了解决线性不可分的问题,它解决问题的逻辑是通过允许一部分样本分得不那么准确(进入“楚河汉界”)甚至错分,使得在绝大多数样本能够正确地线性可分。本篇引入核函数(kernel),从另一个思维角度来解决线性不可分问题。 问题引入 当样本在某个特征空间不...

2018-02-03 10:00:56 164 0

原创 笔记(总结)-SVM(支持向量机)的理解-2

上一篇我们讨论了SVM的建模由来与推导过程,最终得出了SVM的对偶问题和解的形式,不过这都基于一个重要前提,即样本集是线性可分的。为了解决线性不可分情况下的分类问题,我们引入soft margin SVM,即软间隔SVM。 为了处理上述情况,我们不再要求样本集全部位于“楚河汉界”外,放宽限制...

2018-02-02 14:29:23 144 0

原创 笔记(总结)-SVM(支持向量机)的理解-1

SVM即支持向量机作为神经网络复兴前的最强大模型,建模和推导有着严密的数学推导作为基础,在训练完成后计算速度也较快,得到了广泛的应用。本文先阐述SVM的基本问题和推导过程,再引入软间隔的SVM,最后引入核函数和求解方法。 问题引入 考虑简单的二分类问题,我们想找一个“最好”的超平面来分隔两...

2018-02-02 13:20:25 234 0

原创 笔记(总结)-Logistic Regression

从线性回归讲起 先说回归问题。对于回归问题,最常用的是用线性函数来拟合待预测值,即: f(x)=wTx+b,f(x)=w^Tx+b, 使得 f(x)≈yf(x)≈y 上述情况中,待预测值是在线性尺度上变化,假若是在指数尺度上变化(yy取值类似于1、2、4、8、16…),则可将待预测值的对数作...

2018-01-16 22:06:56 172 0

原创 笔记(总结)-从过拟合与欠拟合到偏差-方差分解

在用机器学习模型解决实际问题时,时刻离不开“拟合”(fitting)一词,拟合可以看做挖掘样本集与对应标签的规律。模型的预测值和样本的真实标签之间的差异称为“误差”(error),在实际问题中,我们通常在训练集上训练模型,由此产生“训练误差”(training error),然后将模型运用于测试集...

2018-01-16 16:36:28 817 0

原创 笔记-Capsule

前一篇讲述AlphaGo的博主还有一篇专栏,以Capsule为引子,从最初的BP->RBM->CNN->Capsule详细讲述了神经网络的发展进程以及当前CNN模型的缺陷,最终分析了Hinton提出的Capsule新概念。参考链接如下: 浅析 Hinton 最近提出的 Caps...

2018-01-13 14:39:02 200 0

原创 笔记-AlphaGo解析

最近在知乎上看到一篇文章,从minimax入手讲AlphaGo。讲解通俗易懂,正好最近算法课BDB也讲了些minimax,学习之。链接如下: 浅述:从 Minimax 到 AlphaZero,完全信息博弈之路(1) 做的笔记如下: P1-left part P1-right part ...

2018-01-13 14:33:58 704 0

原创 笔记(总结)-XGBoost的前世今生

现今的各类数据挖掘比赛中,决策树模型占据了半壁江山(另外半壁基本就是神经网络模型)。决策树,本质上来说就是通过一系列的“规则”将样本集不断划分归类,最后归为同一类的样本被认为是相似的,赋予相同的预测值。 决策树相对于其他机器学习模型来说: 可解释较强(规则划分) 能够有合理的调参依据(树深度...

2018-01-13 14:17:31 726 0

原创 笔记-话题模型&LDA

列出学习LDA过程中参考的链接,其中第一条链接中的博主讲述得十分清晰详细:通俗理解LDA主题模型主题模型-LDA浅析 - CSDN博客

2017-12-21 20:50:01 232 0

提示
确定要删除当前文章?
取消 删除