![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
ML
文章平均质量分 93
下一步
长期关注NLPMLCLinux等
展开
-
从曲线拟合问题窥视机器学习中的相关概念
从曲线拟合问题窥视机器学习中的相关概念一直徘徊在机器学习的边缘未敢轻易造次并畏惧其基本原理思想,从每一本厚厚的参考资料中都可以看出机器学习是一门跨越概率论、决策论、信息论以及最优化的学科的综合学科,今天终于鼓足勇气向其挑战,选择该领域经典书籍PRML研读,希望能有点收获。后面的一系列的文章都是从一个初学者的角度来学习机器学习领域的知识。1. 曲线拟合问题定义:给定一系列输入xi以及原创 2013-07-07 21:07:14 · 2856 阅读 · 0 评论 -
深度学习(Deep Learning)读书思考八:循环神经网络三(RNN应用)
概述通过前两小节的介绍,可以清楚的了解RNN模型的网络结构以及LSTM。本小节主要介绍RNN其他变形以及应用,包括 1.GRU单元 2.序列到序列(Seq2Seq)模型 3.注意力(Attention)模型 4.RNN在NLP中的应用 5.总结GRU单元GRU通过引入重置门和遗忘门来解决长期依赖问题,相对于LSTM有更少参数并且在某些问题上,效果好于L原创 2016-11-20 11:30:18 · 7587 阅读 · 0 评论 -
深度学习(Deep Learning)读书思考七:循环神经网络二(LSTM)
概述原创 2016-11-20 11:29:30 · 5810 阅读 · 0 评论 -
深度学习(Deep Learning)读书思考六:循环神经网络一(RNN)
概述循环神经网络(RNN-Recurrent Neural Network)是神经网络家族中的一员,擅长于解决序列化相关问题。包括不限于序列化标注问题、NER、POS、语音识别等。RNN内容比较多,分成三个小节进行介绍,内容包括RNN基础以及求解算法、LSTM以及变种GRU、RNN相关应用。本节主要介绍 1.RNN基础知识介绍 2.RNN模型优化以及存在的问题 3.RNN模原创 2016-11-20 11:28:58 · 17107 阅读 · 3 评论 -
深度学习(Deep Learning)读书思考五:卷积神经网络(CNN)
概述原创 2016-11-20 11:28:09 · 2816 阅读 · 0 评论 -
深度学习(Deep Learning)读书思考四:模型训练优化
概述机器学习应用包括模型构建、求解和评估,对于深度模型而言也是类似,根据之前的介绍可以构建自己的深度神经网络结构。相对于一般的优化问题,深度模型更难优化,本节主要介绍深度学习模型优化挑战、优化算法以及优化策略等。 深度学习模型优化挑战 深度学习优化算法 深度学习中的特殊策略 另外,关于更多数值优化技术可以参考。数值优化技术深度学习优化挑战机器学习原创 2016-11-20 11:27:29 · 10966 阅读 · 2 评论 -
深度学习(Deep Learning)读书思考三:正则化
概述正则化是机器学习中非常重要并且非常有效的减少泛华误差的技术,特别是在深度学习模型中,由于其模型参数非常多非常容易产生过拟合。因此研究者也提出很多有效的技术防止过拟合,比较常用的技术包括: 参数添加约束,例如L1、L2范数等 训练集合扩充,例如添加噪声、数据变换等 Dropout 该文主要介绍深度学习中比较常见几类正则化方法以及常用参数选择,并试图解释其原理。原创 2016-11-20 11:26:30 · 6421 阅读 · 0 评论 -
深度学习(Deep Learning)读书思考二:前向神经网络
概述 深度学习也是机器学习的一种,是由前向神经网络或者多层感知机算法演化而来,由于计算资源和可计算数据增加,神经网络的效果逐渐浮现出来,从而迎来了蓬勃发展。本节主要介绍深度学习中基础网络结构前向神经网络(Feedword Netural Network)FNN基本概念机器学习都是在学习一种变换,深度学习也不例外,即y=f(x)=ϕ(x;θ)y=f(x)=\phi(x;\the原创 2016-11-20 11:25:56 · 4282 阅读 · 0 评论 -
深度学习(Deep Learning)读书思考一:基本概念
概述 《Deep Learning》是大神Yoshua Bengio关于深度学习的一个全面概述,之前也出过很多综述类的文章。 该系列读书思考笔记主要记录深度学习中需要关注或者实际工业界使用的知识点或者技术,方便查阅和备忘。 本节可能会罗列很多技术点,后面慢慢补充。人工智能图谱机器学习的终极目标是人工智能(AI),目前AI的痛点在于人很容易理解的知识,机器很难去表示原创 2016-11-20 11:25:05 · 2225 阅读 · 0 评论 -
【每周一文】A Primer On Neural Network Models for NLP
概述 该文概要介绍了一些神经网络模型如何应用到NLP相关的任务上,对于想使用神经网络技术来解决NLP相关任务的初学者非常有帮助,可以当做一个综述文章来读。主要介绍以下几个主要知识点: 1. 神经网络问题建模和求解 2. NLP问题建模 3. NLP中应用的神经网络结构 4. 总结神经网络问题建模用机器学习模型解决实际问题时,需要解决三个主要问题输入输出原创 2016-11-20 11:20:18 · 1808 阅读 · 0 评论 -
【每周一文】Natural Language Processing (almost) From Scratch
概述本文介绍了一个统一的神经网络架构用于解决自然语言处理各种的各种任务,主要是序列标注任务,包括词性标注(POS)、词语组块分析(Chunking)、命名实体识别(NER)以及语义角色标注(SRL)等。本文主要介绍如何构建这个统一的神经网络以及如何运用一些技巧去提高效果,结论是不需要特殊构建特征工程就可以得到State-of-art结果。统一标识为方面后续介绍,提前介绍各类标识。原创 2016-02-16 23:46:43 · 5874 阅读 · 1 评论 -
【每周一文】Field-aware Factorization Machine(2014)
概述 FFM 近年来在各类比赛取得不俗的成绩,该文介绍了FFM的算法思路和求解过程。FFM模型线性模型由于其简单好优化在工业界广泛使用,特别是LR、SVM等表达能力比较强的线性模型。这些模型一个共同的问题是需要人工进行特征组合进行模型优化,沿着这个思路出现了几个模型。线性模型基础模型,表示为: Φ(w,x)=w0+∑i=1nwixi\Phi(w,x)=w_0+\sum_原创 2016-04-12 22:58:36 · 3797 阅读 · 1 评论 -
【每周一文】Learning Classifiers from Only Positive and Unlabeled Data(2008)
概述本文也是用于求解PULearning问题,并且提出在样本满足一定分布情况下,根据正样本和未标记样本作为负样本训练出来的分类模型,预测出来的结果和该样本属于正样本的概率存在一个固定常数系数。 根据该假设提出两种模型训练思路,能够得到最好的效果。问题求解对于给定的样本数据引入第三个随机变量S表示该样本是否被标记过,则p(x,y,s)满足一定的概率分布。 变量含义x为样本特征数据原创 2016-04-12 22:56:35 · 3774 阅读 · 3 评论 -
【每周一文】Building Text Classifiers Using Positive and Unlabeled Examples(2003)
概述PULearning是一类机器学习算法,主要解决的问题是给定训练样本只有正样本和一批未标记的样本,学习一个分类器进行分类。这是一类比较难解决的问题,由于没有负样本其评估的方法不好确定;但是有很多的应用场景,例如蛋白质序列查找、噪声发现等。 常用的解决思路主要分为两步: 1. 识别出一批可靠的负样本集合。 2. 根据正负样本训练多个分类器从中选择一个最优的作为最终的分类器。 该文介绍原创 2016-04-12 22:55:55 · 2049 阅读 · 0 评论 -
【每周一文】Factorization Machines
概述 在使用线性模型,例如LR模型时,特征工程是很大一块工作,有时为了产生较好的效果需要人工进行一些特征的二维或者三维交叉。FM(Factorization machines)提供了一种思路可以自动进行特征交叉,同时能够处理非常稀疏数据,线性时间复杂度,计算简单。 由于FM实现简单效果非常好,而且应用范围非常广,FM是近期非常火的技术,在比赛或者大公司都非常常见。FMF原创 2016-02-16 23:48:45 · 2304 阅读 · 0 评论 -
【每周一文】Supervised Sequence Labelling with Recurrent Neural Networks
概述 序列化标注是NLP领域非常常见的问题,很多问题都可以归结为序列化标注问题,例如分类可以看做多对一的标注;词性标注属于一对一的标注;机器翻译属于多对多的标注。 深度学习在NLP上取得不错的效果,常用的模型有前向神经网络(FNN)、卷积神经网络(CNN)、循环神经网络(RNN、BIRNN)、LSTM、关注度模型(AM)等,对于特定任务还有相关变形 本文主要科普下各个模型的结构原创 2016-02-16 23:47:55 · 5845 阅读 · 0 评论 -
【每周一文】A Few Usefull Things to know about Machine Learning
概述机器学习被普遍认为任何一个IT民工必备的工具之一,和学习任何语言工具一样,简单的体验一下或许非常简单。但这并不代表你能真正驾驭它,如果想深入不是一年两年能搞得定事情,本文作者总结了对于刚入门机器学习者需要注意一些事项。什么是学习机器学习包括无监督、半监督、监督、强化学习等,但是对于很多初入门的MLer可能就是监督学习,即给定训练样本和标签,学习出某个模型进行新样本预测。学习原创 2016-02-16 23:45:27 · 640 阅读 · 0 评论 -
【每周一文】Ad Click Prediction: a View from the Trenches(2013)
概述该文是GoogleFTRL在点击率模型上的应用,从技术实现的角度介绍了在线学习算法FTRL的工程实现,并且给出一些内存优化、特征选择等工程细节。从此FTRL算法才大规模推广使用。 该笔记主要介绍一下几类在线学习算法的思路以及FTRL实现细节以及工程上技巧。问题点击率预估问题(CTR)是计算广告中非常重要的模块,预估一个用户对广告的点击概率,从而提升广告效果。 LR模型时CTR问原创 2016-04-12 22:57:58 · 7456 阅读 · 0 评论