每周一文_下一步的博客-CSDN博客

每周一文

关注

文章平均质量分 89

关注数：文章数：15 文章阅读量：57541 文章收藏量：65

作者: 下一步

长期关注NLPMLCLinux等

展开

专栏收录文章

【每周一文】A Few Usefull Things to know about Machine Learning

概述机器学习被普遍认为任何一个IT民工必备的工具之一，和学习任何语言工具一样，简单的体验一下或许非常简单。但这并不代表你能真正驾驭它，如果想深入不是一年两年能搞得定事情，本文作者总结了对于刚入门机器学习者需要注意一些事项。什么是学习机器学习包括无监督、半监督、监督、强化学习等，但是对于很多初入门的MLer可能就是监督学习，即给定训练样本和标签，学习出某个模型进行新样本预测。学习

原创 2016-02-16 23:45:27 · 743 阅读 · 0 评论
【每周一文】Sequence to Sequence Learning with Neural Networks（2014）

概述DNN已经被成功用于多种AI任务，并取得很多可喜的成绩，例如语音识别、图片分类等。然而它们都不能处理序列到序列的任务，该文提出了一个端到端的（End To End）模型处理序列到序列的任务。本文主要介绍： 1.Seq2Seq任务描述 2.Seq2Seq模型介绍任务描述在自然语言处理中有很多任务都可以归约为序列到序列的任务，例如： 1.机器翻译问题 2.语音识

原创 2016-11-20 11:24:03 · 3870 阅读 · 0 评论
【每周一文】Convolutional Neural Network for text/sentence classification（2016）

概述卷积神经网络（CNN）相比于基于词袋模型的DNN有以下优点： 1. 能够捕获局部的位置信息 2. 能够方便的将不定长的输入转换成定长输入接入到DNN网络中 3. 相比于RNN模型计算复杂度低，在很多任务中取得不错的效果。在自然语言处理（NLP）的分类任务中，文本分类或者句子分类也能表现比较好的效果，甚至达到state of art效果。另外如果借助于预训练的词向量、字向量或者

原创 2016-11-20 11:23:01 · 6314 阅读 · 0 评论
【每周一文】A Primer On Neural Network Models for NLP

概述该文概要介绍了一些神经网络模型如何应用到NLP相关的任务上，对于想使用神经网络技术来解决NLP相关任务的初学者非常有帮助，可以当做一个综述文章来读。主要介绍以下几个主要知识点： 1. 神经网络问题建模和求解 2. NLP问题建模 3. NLP中应用的神经网络结构 4. 总结神经网络问题建模用机器学习模型解决实际问题时，需要解决三个主要问题输入输出

原创 2016-11-20 11:20:18 · 1997 阅读 · 0 评论
【每周一文】Natural Language Processing (almost) From Scratch

概述本文介绍了一个统一的神经网络架构用于解决自然语言处理各种的各种任务，主要是序列标注任务，包括词性标注（POS）、词语组块分析（Chunking）、命名实体识别（NER）以及语义角色标注（SRL）等。本文主要介绍如何构建这个统一的神经网络以及如何运用一些技巧去提高效果，结论是不需要特殊构建特征工程就可以得到State-of-art结果。统一标识为方面后续介绍，提前介绍各类标识。

原创 2016-02-16 23:46:43 · 6091 阅读 · 1 评论
【每周一文】Field-aware Factorization Machine（2014）

概述 FFM 近年来在各类比赛取得不俗的成绩，该文介绍了FFM的算法思路和求解过程。FFM模型线性模型由于其简单好优化在工业界广泛使用，特别是LR、SVM等表达能力比较强的线性模型。这些模型一个共同的问题是需要人工进行特征组合进行模型优化，沿着这个思路出现了几个模型。线性模型基础模型，表示为： Φ(w,x)=w0+∑i=1nwixi\Phi(w,x)=w_0+\sum_

原创 2016-04-12 22:58:36 · 3995 阅读 · 1 评论
【每周一文】Learning Classifiers from Only Positive and Unlabeled Data（2008）

概述本文也是用于求解PULearning问题，并且提出在样本满足一定分布情况下，根据正样本和未标记样本作为负样本训练出来的分类模型，预测出来的结果和该样本属于正样本的概率存在一个固定常数系数。根据该假设提出两种模型训练思路，能够得到最好的效果。问题求解对于给定的样本数据引入第三个随机变量S表示该样本是否被标记过，则p(x,y,s)满足一定的概率分布。变量含义x为样本特征数据

原创 2016-04-12 22:56:35 · 4001 阅读 · 3 评论
【每周一文】Building Text Classifiers Using Positive and Unlabeled Examples(2003)

概述PULearning是一类机器学习算法，主要解决的问题是给定训练样本只有正样本和一批未标记的样本，学习一个分类器进行分类。这是一类比较难解决的问题，由于没有负样本其评估的方法不好确定；但是有很多的应用场景，例如蛋白质序列查找、噪声发现等。常用的解决思路主要分为两步： 1. 识别出一批可靠的负样本集合。 2. 根据正负样本训练多个分类器从中选择一个最优的作为最终的分类器。该文介绍

原创 2016-04-12 22:55:55 · 2191 阅读 · 0 评论
【每周一文】Clustering Users in Twitter Based on Interests(2012)

概述用户聚类在个性化推荐、市场分析等领域都很重要，特别是对千万级用户群体分析，单个用户的行为通常都是稀疏的。该文介绍了针对Twitter或者微博上的用户进行聚类，结果对于10亿级别的用户群可以聚合成400个类。该文主要提到的思路是： 1. 根据用户阅读内容特征和社交特征，计算用户的相似度，可以用于相似度计算的特征包括推文信息、标签、关注信息以及转发特征。 2. 根据用户相似度，通过传统

原创 2016-03-15 23:51:13 · 890 阅读 · 0 评论
【每周一文】Googles News Personalization：Scalable Online Collaborative Filtering（2007）

概述最近因工作需要调研一下对大规模数据如何进行有效用户聚类，发现google之前论文做过相关事情。该文从工程实现角度介绍了一种通用的在线推荐架构，可以适用于大规模数据和实时推荐。该文提到模型通过三种方式进行推荐1）MinHash 聚类2）PLSI 3）共现问题问题：根据用户对页面的点击历史进行个性化推荐。和Netfix电影推荐的主要不同是 1）用户点击行为噪声比较多

原创 2016-03-15 23:50:13 · 1591 阅读 · 1 评论
【每周一文】Factorization Meets the Neighborhood：a Multifaceted Collaborative Filtering Model

概述在推荐系统中，协同过滤（CF：Collaborative Filtering）算法由于其领域无关性以及比较好的推荐效果被广泛使用； CF模型比较常用的包括最近邻方法和因子分解算法，由于这两种算法各有优缺点；该文提出了一种策略将这两种方法进行综合建模，并且可以适用于隐式反馈数据。已有模型最近邻方法CF常用的有user_based和item_based两个模型，后

原创 2016-03-15 23:48:36 · 4592 阅读 · 0 评论
【每周一文】Collaborative Filtering for Implicit Feedback Datasets(2008)

概述协同过滤(Collaborative Filtering)是推荐领域非常重要的算法策略，由于它的领域无关性，应用非常广泛。本文解决的一个问题是：在训练数据集合中，只有用户的隐式反馈，例如用户的浏览行为、收藏行为等，没有用户直接打分行为；即只有用户偏好行为，对于用户不喜欢的商品没有数据支持；基于以上数据本文提出一种隐式因子模型(Factor Model)解决该问题，并给出优化求解。

原创 2016-03-15 23:46:43 · 4703 阅读 · 0 评论
【每周一文】Factorization Machines

概述在使用线性模型，例如LR模型时，特征工程是很大一块工作，有时为了产生较好的效果需要人工进行一些特征的二维或者三维交叉。FM（Factorization machines）提供了一种思路可以自动进行特征交叉，同时能够处理非常稀疏数据，线性时间复杂度，计算简单。由于FM实现简单效果非常好，而且应用范围非常广，FM是近期非常火的技术，在比赛或者大公司都非常常见。FMF

原创 2016-02-16 23:48:45 · 2419 阅读 · 0 评论
【每周一文】Supervised Sequence Labelling with Recurrent Neural Networks

概述序列化标注是NLP领域非常常见的问题，很多问题都可以归结为序列化标注问题，例如分类可以看做多对一的标注；词性标注属于一对一的标注；机器翻译属于多对多的标注。深度学习在NLP上取得不错的效果，常用的模型有前向神经网络（FNN）、卷积神经网络（CNN）、循环神经网络（RNN、BIRNN）、LSTM、关注度模型（AM）等，对于特定任务还有相关变形本文主要科普下各个模型的结构

原创 2016-02-16 23:47:55 · 6119 阅读 · 0 评论
【每周一文】Ad Click Prediction: a View from the Trenches(2013)

概述该文是GoogleFTRL在点击率模型上的应用，从技术实现的角度介绍了在线学习算法FTRL的工程实现，并且给出一些内存优化、特征选择等工程细节。从此FTRL算法才大规模推广使用。该笔记主要介绍一下几类在线学习算法的思路以及FTRL实现细节以及工程上技巧。问题点击率预估问题（CTR）是计算广告中非常重要的模块，预估一个用户对广告的点击概率，从而提升广告效果。 LR模型时CTR问

原创 2016-04-12 22:57:58 · 8026 阅读 · 0 评论

每周一文

作者: 下一步

【每周一文】A Few Usefull Things to know about Machine Learning

【每周一文】Sequence to Sequence Learning with Neural Networks（2014）

【每周一文】Convolutional Neural Network for text/sentence classification（2016）

【每周一文】A Primer On Neural Network Models for NLP

【每周一文】Natural Language Processing (almost) From Scratch

【每周一文】Field-aware Factorization Machine（2014）

【每周一文】Learning Classifiers from Only Positive and Unlabeled Data（2008）

【每周一文】Building Text Classifiers Using Positive and Unlabeled Examples(2003)

【每周一文】Clustering Users in Twitter Based on Interests(2012)

【每周一文】Googles News Personalization：Scalable Online Collaborative Filtering（2007）

【每周一文】Factorization Meets the Neighborhood：a Multifaceted Collaborative Filtering Model

【每周一文】Collaborative Filtering for Implicit Feedback Datasets(2008)

【每周一文】Factorization Machines

【每周一文】Supervised Sequence Labelling with Recurrent Neural Networks

【每周一文】Ad Click Prediction: a View from the Trenches(2013)