
机器学习
zenRRan
这个作者很懒,什么都没留下…
展开
-
梯度下降法理论与实践
声明:下文中代码实现以上的图片来自2014stanford机器学习视频理论基础现在比如有两个参数的损失函数我们的目的是使之最小也就是得到能够使J函数最小的,,公示表示为:我们画出当取不同值时J的变化图是这样的颜色越深代表J值越大。我们比如随便取一个点(,各等于某值时),此点如图所示:此时比如我们站在此点上,想要快速到达谷底(也就是使J函数达到极小值)。此时我...原创 2019-03-06 11:59:44 · 376 阅读 · 0 评论 -
【干货】基于pytorch的CNN、LSTM神经网络模型调参小结
Demo这是最近两个月来的一个小总结,实现的demo已经上传github,里面包含了CNN、LSTM、BiLSTM、GRU以及CNN与LSTM、BiLSTM的结合还有多层多通道CNN、LSTM、BiLSTM等多个神经网络模型的的实现。这篇文章总结一下最近一段时间遇到的问题、处理方法和相关策略,以及经验(其实并没有什么经验)等,白菜一枚。Demo Site: https://github....转载 2019-03-07 18:29:21 · 7803 阅读 · 0 评论 -
【干货】基于注意力机制的seq2seq网络
seq2seqseq2seq的用途有很多,比如机器翻译,写诗,作曲,看图写文字等等用途很广泛!该模型最早在2014年被Cho和Sutskever先后提出,前者将该模型命名为“Encoder-Decoder Model”也就是编码-解码模型,后者将其命名为“Sequence to Sequence Model”也就是序列到序列模型,两者有一些细节上的差异,但总体大致思想基本相同。seq2se...原创 2019-03-07 18:30:11 · 1159 阅读 · 0 评论 -
基于attention的seq2seq机器翻译实践详解
理理思路 文本处理,这里我是以eng_fra的文本为例,每行是english[tab]french,以tab键分割。获取文本,清洗。 分别建立字典,一个english,一个french。 根据字典写好seq2id的函数(文本序列->数字序列),并调用将文本序列化。 初始化Encoder,Decoder模型;选择合适的优化器;设置lr,epochs等参数;...原创 2019-03-08 09:06:26 · 3487 阅读 · 4 评论 -
【机器学习】决策树的理论与实践
一个小故事zenRRan二十出头了,到了婚配的年龄啦。又因为家是名门望族,所以一堆人抢着想来应聘配偶的职位。但是zenRRan比较挑剔,必须达到他的要求才能有机会成为他的另一半,要求为:1. 性别女,非女性不要于是刷刷刷走了一半人,剩下的全部为女性。2.身高必须要在150-165cm于是又走了一堆人,剩下的为160-165cm之间的女生。3.性格要温柔贤惠听到这些,又走...原创 2019-03-11 20:35:44 · 374 阅读 · 0 评论 -
【机器学习】如何处理数据不均衡问题
在打比赛期间,遇到了数据不均衡问题。于是网上查了查资料,便做了以下总结。嘿嘿什么是数据不均衡问题举个小栗子:如果100个人中喜欢吃梨的有90人,喜欢吃苹果的有10人。那么如果你随便在大街上找一个人,预测他是喜欢吃梨还是苹果?肯定的,傻子都知道猜他喜欢吃梨呀。因为这样基本不用学习什么知识,就能将准确率控制在90%左右。用图表示就为:...原创 2019-03-11 20:36:13 · 684 阅读 · 0 评论 -
【顶会论文解析】罪行预测
作者bamtercelboo原文地址https://bamtercelboo.github.io/2018/07/19/Learning-to-Predict-Charges-for-Criminal-Cases-with-Legal-Basis/导读2017年EMNLP(Conference on Empirical Methods in Natural Language...转载 2019-03-11 20:38:13 · 1299 阅读 · 5 评论 -
【机器学习】今天想跟大家聊聊SVM
Motivation之前我在自己的简书上写过SVM,可是当时写的只是皮毛(主要是现在忘了O.O),那么现在想再次拾起的原因是什么呢? 8.2-8.4号在听SMP会议的时候,发现SVM其实还是很常用的(在其他的计算机相关领域)。 在论文中数据的baseline中,基本很多都是SVM做基线。 我觉得未来算法的趋势应该是深度学习方法+传统的机器学习方法。这样说的原因在于我了...原创 2019-03-11 20:39:31 · 302 阅读 · 0 评论 -
【机器学习】今天详细谈下Soft Margin SVM和 SVM正则化
导读昨天详细谈了谈最简单的SVM,相比较于今天要讲的Soft Margin SVM来说,昨天讲的其实是Hard Margin SVM,没看过的朋友们可以点击这里:【机器学习】今天想跟大家聊聊SVM为什么提出Soft Margin SVM还是举一个例子吧该点属于蓝色类别,所以决策线如图所示。但是这个决策边界如果运用到现实环境中的话,肯定会有很大的误分类点。也就是该分类线...原创 2019-03-11 20:40:07 · 2399 阅读 · 0 评论 -
一文轻松搞懂-条件随机场CRF
根据实验室师兄,师姐讲的条件随机场CRF,我根据我的理解来总结下。有什么疑问的尽管在评论里指出,我们共同探讨.总说CRF(Conditional Random Field),中文被翻译为条件随机场。经常被用于序列标注,其中包括词性标注,分词,命名实体识别等领域。但是为什么叫这个名字呢?下面看完了基本也就明白了!那我们继续吧。理论我们以命名实体识别NER为例,先介绍下NE...原创 2019-03-08 13:23:06 · 2163 阅读 · 8 评论 -
Highway Networks
导读本文讨论了深层神经网络训练困难的原因以及如何使用Highway Networks去解决深层神经网络训练的困难,并且在pytorch上实现了Highway Networks。一 、Highway Networks 与 Deep Networks 的关系深层神经网络相比于浅层神经网络具有更好的效果,在很多方面都已经取得了很好的效果,特别是在图像处理方面已经取得了很大的突破,然而,...转载 2019-03-08 13:29:16 · 649 阅读 · 0 评论 -
TreeLSTM Sentiment Classification
实验室周日讨论班讲的是TreeLSTM Sentiment Classification,主讲人:王铭涛本人来做一下总结。下面的图片来自于 王铭涛的ppt导读我们一步一步来。先说最基础的RNN结构:公式为:就一个简单的隐层h。但是RNN的缺点是会有梯度爆炸或者梯度消失问题。这里我就不详细解释了。下面推荐阅读有我之前的RNN,LSTM详细讲解,想更深一步了解...原创 2019-03-08 13:32:08 · 3483 阅读 · 0 评论 -
简单理解Momentum,RMSprop,Adam优化算法
我们初学的算法一般都是从SGD入门的,参数更新是:它的梯度路线为:但是可以看出它的上下波动很大,收敛的速度很慢。因此根据这些原因,有人提出了Momentum优化算法,这个是基于SGD的,简单理解,就是为了防止波动,取前几次波动的平均值当做这次的W。这个就用到理论的计算梯度的指数加权平均数,引进超参数beta(一般取0.9):beta和1-beta分别代表之前的dW权重和现在...原创 2019-03-07 18:27:59 · 615 阅读 · 0 评论 -
过拟合解决方法之L2正则化和Dropout
什么是过拟合? 一幅图胜千言万语欠拟合正确的拟合过拟合 过拟合(overfitting):就是对数据的过度严格的拟合。这个经常出现在分类问题上。怎么解决过拟合呢?L2正则化逻辑回归中L2正则化的过程: L2正则化是最常用的正则化。 我们先求出代价方程J(w,b)为:...原创 2019-03-07 18:27:18 · 1450 阅读 · 0 评论 -
深度学习之RNN、LSTM及正向反向传播原理
总说 RNN( Recurrent Neural Network 循环(递归)神经网络)跟人的大脑记忆差不多。我们的任何决定,想法都是根据我们之前已经学到的东西产生的。RNN通过反向传播和记忆机制,能够处理任意长度的序列,在架构上比前馈神经网络更符合生物神经网络的结构,它的产生也正是为了解决这类问题而应用而生的。 RNN及改进的LSTM等深度学习模型都是基于神...原创 2019-03-07 18:26:05 · 1821 阅读 · 0 评论 -
神经网络基础模型--Logistic Regression的理论和实践
概述 Logistic Regression 即逻辑回归,属于监督学习,输入x(特征数据),输出为0或1(显然是二分类)。为什么要用逻辑回归讲神经网络基础呢?我觉得这个相对比较简单,易懂,而且有神经网络基本都会用到的激活函数(Activation Function)。正向传播,搭建神经网络 比如我们要给二维平面的点做分类,则输入的是特征有,(即点的x,y坐标...原创 2019-03-06 14:37:58 · 831 阅读 · 0 评论 -
详解机器学习之感知机理论与实践
导读本章讲的是让他机器学习说yes/no,目录分为: 感知机假设集合 感知机学习算法(PLA) 确保数据集线性可分 非线性可分数据 实践代码与效果 Perceptron Hypothesis Set我们还以是否给办理信用卡为例,上面是客户的信息。x是上面的客户信息向量,每一个维度对应一个权重w,w理解为这个维度的重要性。这...原创 2019-03-09 10:48:34 · 397 阅读 · 0 评论 -
谈谈我在自然语言处理入门的一些个人拙见
因为最近在准备本科毕设的论文部分,所以最近原创的相对比较少,但是为了坚持每天学点新知识,我也逼着自己每天抽出晚上的1小时左右把自己想到的并且自己还没理解的小知识点的网上搜索下好的文章,能一下子读懂的,最好有图之类的文章,再根据自己的一些小理解,将文章编辑下,分享给大家。末尾再附上自己的当天准备的五个托福单词,这五个单词我也不是我先学过的,而是托福单词随机到的,在我编辑的时候我也刚好学下。正是在这种...原创 2019-03-09 10:58:17 · 1127 阅读 · 0 评论 -
深度学习之激活函数详解
激活函数是什么激活函数,即Activation Function,有时候也称作激励函数。它是为了解决线性不可分的问题引出的。但是也不是说线性可分就不能用激活函数,也是可以的。它的目的是为了使数据更好的展现出我们想要的效果。激活函数在哪里用?比如一个神经网络为了更清晰的表示,我用红色标出。比如像上面的网络z = W*x,这个线性运算就是上面节点白色的部分,另一部分当然就是F(z)...原创 2019-03-06 21:16:48 · 1478 阅读 · 0 评论 -
pyTorch基础入门练习
import导入import torch#基本的torch函数import torch.autograd as autograd#自动求导import torch.nn as nn#神经网络类都在这个里面import torch.nn.functional as F#几乎所有的激励函数import torch.optim as optim#优化 创建Tensors#...原创 2019-03-06 21:19:34 · 1678 阅读 · 0 评论 -
这些神经网络调参细节,你都了解了吗
在写本科毕业论文的时候又回顾了一下神经网络调参的一些细节问题,特来总结下。主要从weight_decay,clip_norm,lr_decay说起。以前刚入门的时候调参只是从hidden_size,hidden_num,batch_size,lr,embed_size开始调,但是后来才逐渐明白embed_size一般是设置完后不用再调的,比如设定为128后,就不要调了,因为embed_size...原创 2019-03-09 22:58:55 · 2255 阅读 · 0 评论 -
【收藏版】长文详解基于并行计算的条件随机场
之前写过CRF的详解,只是为了让大家详细了解下原理,但是那种是没有优化的,速度很慢。在实际应用中,还是需要用到batch,也就是需要用到GPU的,那么此时并行计算就变得极为重要。在研究到一定的程度上,困住你的不是算法本身,而是时间。同一件事,当然是越快越好。此时困住你的就是加速问题。我认为的加速大概分为两种: 算法的本身的速度。 程序中的循环怎么改为矩阵计算,也就是并行计...原创 2019-03-10 08:41:40 · 477 阅读 · 0 评论 -
深度学习之卷积神经网络CNN理论与实践详解
概括大体上简单的卷积神经网络是下面这个网络流程:笼统的说: 文本通过Embeding Layer后,再通过一些filters进行过滤,对结果进行maxPooling,再经过线性层映射到类别上,最后经过Softmax,得出类别分数。细致的说: 就得慢慢分析了,as follows:第一层:将Embeding进行filter 设...原创 2019-03-07 18:04:11 · 544 阅读 · 0 评论 -
自然语言处理之基于biLSTM的pytorch立场检测实现
其他文中已经讲过了LSTM的原理,LSTM理解了,biLSTM其实也就很容易理解了。这个实验,我是根据黑龙家大学nlp实验室的冯志,王潜升师兄的指导以及一篇基于biLSTM的paper实现的,如果想要这个paper的pdf,可以私聊我,一起进步。 biLSTM是双向循环神经网络,简单的理解就是LSTM正向走一遍,又反向走了一遍而已。而对于立场检测这个实验,在这里我借用...原创 2019-03-07 18:07:00 · 1881 阅读 · 9 评论 -
详谈P(查准率),R(查全率),F1值
怎么来的? 我们平时用的精度accuracy,也就是整体的正确率 acc=predict_right_num/predict_num这个虽然常用,但不能满足所有任务的需求。比如,因为香蕉太多了,也不能拨开人工的一个一个的看它的好坏(我爱吃啊,想想就心疼),此时我们就需要有一种方法,代替拨开香蕉这种粗鲁的手段。这时我们需要通过一些测试,看看哪种方法能更加准确的预测...原创 2019-03-07 18:11:20 · 5490 阅读 · 1 评论 -
调参的一些个人拙见
最近的事。。浓缩成下面的一张图。调参有哪些方法呢? 语料处理。这个是之后一切操作的基础。有人或许认为算法是最重要的,其实不然,语料处理真的真的是最重要的。就比如中文语料处理,全角转半角,繁体转简体,大写转小写(中文语料也可能有英文呀)。语料处理好了,能提高好个点。 代码问题。有时候你虽然调出最高的参数了,可是你不能在此还原这样一抹一样的数据,为什么呢?我有一次就是这样。原因...原创 2019-03-07 18:23:58 · 375 阅读 · 0 评论 -
详解机器学习之the Learning Problem
Why do we learn Machines Learning之前虽然学过逻辑回归LR,支持向量机SVM等机器学习的零星小片段,还有深度学习也做过很多事情。但是总觉得该抽点时间系统的学习下机器学习了,要不总觉得缺点啥。刚好,自己有视频资料,其实b站上也有,如果你们想学可以给我要视频资料,也可以去b站上看。咱们先说下深度学习和机器学习的关系,深度学习属于机器学习,但是深度学习自己都快成了...原创 2019-03-09 10:47:20 · 689 阅读 · 0 评论