深度学习
文章平均质量分 62
尽拣寒枝不肯栖
这个作者很懒,什么都没留下…
展开
-
NLP 的巨人肩膀(下):从 CoVe 到 BERT
转载文章,感谢机器之心作者,帮作者引流。戈多会来吗?在前文深度长文:NLP的巨人肩膀(上)中,我们介绍了好几种获取句子表征的方法,然而值得注意的是,我们并不是只对如何获取更好的句子表征感兴趣。其实更有趣的是,这些方法在评估他们各自模型性能的时候所采取的方法,回过头去进行梳理,我们发现,无论是稍早些的InferSent,还是 2018 年提出的Quick-thoughts和Multi-task Learning获取通用句子表征的方法,他们无一例外都使用了同一种思路:将得到的句子...转载 2020-08-18 15:44:31 · 1634 阅读 · 0 评论 -
MLiA 逻辑回归 求解回归函数的系数中梯度下降法及其向量化
作者:洞庭之子微博:洞庭之子-Bing(2013年11月)PDF下载地址:http://download.csdn.net/detail/lewsn2008/65474631.引言看了Stanford的Andrew Ng老师的机器学习公开课中关于Logistic Regression的讲解,然后又看了《机器学习实战》中的LogisticRegress转载 2016-06-22 23:49:40 · 2895 阅读 · 0 评论 -
os.walk处理路径&&lda初级使用
# -*- coding: cp936 -*- import jieba, osfrom gensim import corpora, models, similaritiestrain_set = []walk = os.walk('/home/8888/test1')for root, dirs, files in walk: for name in files原创 2016-07-18 15:21:07 · 482 阅读 · 0 评论 -
nltk应用
摘要对比于《nltk-比较英文文档相似度-完整实例》nltk同时也能处理中文的场景,只要做如下改动:使用中文分词器(如我选用了结巴分词)对中文字符做编码处理,使用unicode编码方式python的源码编码统一声明为 gbk使用支持中文的语料库# -*- coding: cp936 -*- """ 原始数据,用于建立模型"原创 2016-07-18 11:35:07 · 2478 阅读 · 0 评论 -
拉普拉斯平滑
为什么要做平滑处理? 零概率问题,就是在计算实例的概率时,如果某个量x,在观察样本库(训练集)中没有出现过,会导致整个实例的概率结果是0。在文本分类的问题中,当一个词语没有在训练样本中出现,该词语调概率为0,使用连乘计算文本出现概率时也为0。这是不合理的,不能因为一个事件没有观察到就武断的认为该事件的概率是0。拉普拉斯的理论支撑 为了解决零概率的问题,法国数学家拉普拉斯原创 2016-06-21 10:41:57 · 924 阅读 · 0 评论 -
nltk词性
NLTK词性:标记 含义 例子CC 连词 and, or,but, if, while,althoughCD 数词 twenty-four, fourth, 1991,14:24DT 限定词 the, a, some, most,every, noEX 存在量词 there, there'sFW 外来词 dolce, ersatz, esprit, quo,maitre原创 2016-07-17 21:19:09 · 1555 阅读 · 0 评论 -
如何计算两个文档的相似度(二)
注:完全进行了测试,并附有完整代码:# -*- coding: cp936 -*- from gensim import corpora, models, similaritiesimport logginglogging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s' , level=logging.INF原创 2016-07-17 17:30:23 · 9939 阅读 · 0 评论 -
如何计算两个文档的相似度(一)
前几天,我发布了一个和在线教育相关的网站:课程图谱,这个网站的目的通过对公开课的导航、推荐和点评等功能方便大家找到感兴趣的公开课,特别是目前最火的Coursera,Udacity等公开课平台上的课程。在发布之前,遇到的一个问题是如何找到两个相关的公开课,最早的计划是通过用户对课程的关注和用户对用户的关注来做推荐,譬如“你关注的朋友也关注这些课程”,但是问题是网站发布之前,我还没有积累用户关注的数据转载 2016-07-17 17:26:44 · 1575 阅读 · 0 评论 -
lstm
发表于2015-06-05 20:57| 27311次阅读| 来源http://blog.terminal.com| 2 条评论| 作者Zachary Chase LiptonLSTM递归神经网络RNN长短期记忆摘要:根据深度学习三大牛的介绍,LSTM网络已被证明比传统的RNNs更加有效。本文由UCSD研究机器学习理论和应用的博士生Zachary Chase Lipton撰写,用浅显的语言解释了卷转载 2016-06-20 23:18:58 · 754 阅读 · 0 评论 -
GENSIM
作为自然语言处理爱好者,大家都应该听说过或使用过大名鼎鼎的Gensim吧,这个一款具备多种功能的神器,为了深入了解该工具的使用方法,本人将使用该工具进行一系列实战。 该系列博客共分为以下几章: (一)Gensim简介及使用环境搭建 (二)工具自带教程分析 (三)实战演练案例之文档分类 (四)后记 一、Gensim转载 2016-07-17 10:09:16 · 12379 阅读 · 0 评论 -
GENSIM
gensim试用gensim: http://radimrehurek.com/gensim/index.htmlGensim is a free Python framework designed to automatically extract semantic topics from documents, as efficiently (computer-wise) an转载 2016-07-17 09:57:07 · 1081 阅读 · 0 评论 -
LDA比较好的理解
1、用途: 判断两个文档的关联程度使用的方法是查看两个文档中出现相同的单词的个数,就如TF-IDF,这种方法未能够找到隐藏到文本后面的主题关联(或者语义关联),可能两个文档包含的相同的单词不多,但是他们表达的主题却是一样或者相似的。正如:“乔布斯离我们而去了。”和“苹果价格会不会降”一样。 2、主题模型: 到底什么是主题模型。一个主题,可以简单的认为是语义相似的转载 2016-07-05 21:58:56 · 3655 阅读 · 1 评论 -
整理深度学习资料
1.15年值得深度学习的5家初创公司作为人工智能的一种类型,2014年对深度学习来说意义重大。谷歌,Twitter,还有雅虎都收购了深度学习领域的初创公司,它们继承了被称为人工神经网络的培训系统,从音频、图像、以及其他输入项中收集信息,然后给系统呈现新的信息并收到有关它的推论得到的信息作为响应。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式翻译 2016-06-20 00:08:11 · 1551 阅读 · 0 评论 -
LDA
看了一天的LDA:LDA是无监督学习的一种,其中用到的理论包括多项式分布、狄利克雷分布。文档中主题的分布,主题中词汇的分布,文档中词汇的分布三部分。使用的还是anaconda中的包。刚开始用python,有很多不懂的地方,碰到的一个问题加深了python的理解:在python工程的模块中导入包的问题。我是在windows下使用python 的,使用的命令行。我在包外部python im...原创 2016-07-05 20:15:18 · 2270 阅读 · 0 评论 -
nltk官方学习资料
http://www.nltk.org/book/原创 2016-07-18 16:14:53 · 382 阅读 · 0 评论 -
MLiA 朴素贝叶斯
朴素贝叶斯的朴素:不考虑词条之间的关系,即我们认为词条之间相互独立。根据RSS源数据分析预测结果准确率(文章中讲的是具体的案例,其实没啥区别),直接上代码:#-*- coding: UTF-8 -*-__author__ = 'Administrator'import numpy as np #为了导入numpy和math函数中的共有方法log10from numpy import原创 2016-06-22 15:13:29 · 588 阅读 · 0 评论 -
如何计算两个文档的相似度(三)
本文代码全部实现,并附上注释:# -*- coding: cp936 -*- import nltkfrom nltk.tokenize import word_tokenizefrom nltk.corpus import stopwordsfrom nltk.stem.lancaster import LancasterStemmerfrom gensim import cor原创 2016-07-18 21:19:44 · 2661 阅读 · 0 评论 -
MCMC(三)MCMC采样和M-H采样
MCMC(一)蒙特卡罗方法 MCMC(二)马尔科夫链 MCMC(三)MCMC采样和M-H采样 MCMC(四)Gibbs采样 在MCMC(二)马尔科夫链中我们讲到给定一个概率平稳分布ππ, 很难直接找到对应的马尔科夫链状态转移矩阵PP。而只要解决这个问题,我们就可以找到一种通用的概率分布采样方法,进而用于蒙特卡罗模拟。本篇我们就讨论解决这个问题的...转载 2019-09-02 10:44:06 · 609 阅读 · 0 评论 -
深度学习解决NLP问题:语义相似度计算——DSSM
导语在NLP领域,语义相似度的计算一直是个难题:搜索场景下query和Doc的语义相似度、feeds场景下Doc和Doc的语义相似度、机器翻译场景下A句子和B句子的语义相似度等等。本文通过介绍DSSM、CNN-DSSM、LSTM-DSSM等深度学习模型在计算语义相似度上的应用,希望给读者带来帮助。0. 提纲1. 背景2. DSSM3. CNN-DSSM4. LSTM-DSSM...转载 2019-08-25 14:37:24 · 765 阅读 · 0 评论 -
推荐系统---深度兴趣网络DIN&DIEN
转载:找到两篇文章,按照时间最早的源头作为原作者进行转载了。深度学习在推荐系统、CTR预估领域已经有了广泛应用,如wide&deep、deepFM模型等,今天介绍一下由阿里算法团队提出的深度兴趣网络DIN和DIEN两种模型paperDIN:https://arxiv.org/abs/1706.06978DIEN:https://arxiv.org/abs/1809.03672...转载 2019-08-24 18:10:18 · 441 阅读 · 0 评论 -
机器学习之LDA
1.LDA是主题生成模型,由三层贝叶斯模型构成。三层贝叶斯包括:文档-主题、主题-词、前两者的联合分布。2.对每篇文章(或者每个topic)而言,文章-主题属于多项式分布。而多篇文章组成的多项式分布并不属于同一个多项式分布(参数不同)。由于主题是属于具体的每篇文章的,所以不能使用类似NB的策略。多项式分布和Dirichlet分布属于共轭分布。因此多篇文档的分布可以构成一个分布:di...原创 2019-03-07 00:30:58 · 763 阅读 · 0 评论 -
机器学习算法学习札记
机器学习算法学习札记第一部分:概论一、概论1. 分类、聚类分类和聚类是对于结果的类别是否预先设定。Input有标签的为分类的情形,反之为聚类。2.线性模型、树模型根据特征使用方式分为线性模型和树模型。将多个特征综合考虑,得到一个标签为线性模型。而将多个特征单独考虑,每次按照一个特征分为几类,为树模型。3.分类、回归根据输出值是否连续,分为分类和回归。输出为连续的为回归模型,...原创 2019-01-31 14:01:23 · 722 阅读 · 0 评论 -
常用的核函数
以下是几种常用的核函数表示:线性核(Linear Kernel)多项式核(Polynomial Kernel)径向基核函数(Radial Basis Function)也叫高斯核(Gaussian Kernel),因为可以看成如下核函数的领一个种形式:径向基函数是指取值仅仅依赖于特定点距离的实值函数,也就是。任转载 2016-07-03 23:58:05 · 33569 阅读 · 3 评论 -
Python爬虫和情感分析简介(现在基本都用深度学习做情感分析了)
摘要 这篇短文的目的是分享我这几天里从头开始学习Python爬虫技术的经验,并展示对爬取的文本进行情感分析(文本分类)的一些挖掘结果。 不同于其他专注爬虫技术的介绍,这里首先阐述爬取网络数据动机,接着以豆瓣影评为例介绍文本数据的爬取,最后使用文本分类的技术以一种机器学习的方式进行情感分析。由于内容覆盖面巨大,无法详细道尽,这篇文章旨在给那些对相关领域只有少量或者没有接触的人一个认知的窗口,希转载 2016-08-25 22:27:10 · 5467 阅读 · 2 评论 -
An Intuitive Explanation of Convolutional Neural Networks
What are Convolutional Neural Networks and why are they important?Convolutional Neural Networks (ConvNets or CNNs) are a category of Neural Networks that have proven very effective in areas such a转载 2016-09-01 23:31:21 · 1610 阅读 · 0 评论 -
话题模型分类
topic model 是一种应用十分广泛的产生式模型(generative model),在IR, NLP,ML都有广泛的应用,本文将对目前已有的topic model进行分类总结,然后选择几个代表性的topic model进行较为详细的介绍,从而理解topic model 的思想,以及怎么应用。topic model最经典的模型之一是LDA(latent dirichlet alloc转载 2016-07-21 14:09:26 · 899 阅读 · 0 评论 -
关于Latent Dirichlet Allocation及Hierarchical LDA模型的必读文章和相关代码
LDA和HLDA:(1)D. M. Blei, et al., "Latent Dirichlet allocation," Journal of Machine Learning Research, vol. 3, pp. 993-1022, 2003.(2)T. L. Griffiths and M. Steyvers, "Finding scientific topics," Pro原创 2016-07-21 13:51:31 · 1073 阅读 · 0 评论 -
狄利克雷过程理解
狄利克雷过程(dirichlet process )是目前变参数学习(non parameter)非常流行的一个理论,很多的工作都是基于这个理论来进行的,如HDP(hierarchical dirichlet process)。下面我们谈谈dirichlet process的五种角度来理解它。第一种:原始定义:假设存在在度量空间\Theta上的分布H和一个参数\alpha,如果对于度量空间原创 2016-07-21 11:43:31 · 851 阅读 · 0 评论 -
MLiA 贝叶斯分类总结及决策树的一个小问题
昨天睡觉时候突然思考了下朴素贝叶斯分类方法,发现之前理解不透,突然搞不明白怎么分类的了,今天又看了看,才算大概了解了,比如是垃圾邮件分类。1.训练集:首先对垃圾邮件和非垃圾邮件进行分词,并记录邮件分类。此处词汇集合用来记录所有训练数据的所有词汇,然后对于每封邮件去判断集合中的词是否在当前邮件出现,形成一个矩阵。2.分别计算垃圾邮件和非垃圾邮件中集合中的每个词分别出现次数,出现概率。训练阶段原创 2016-06-23 11:38:02 · 664 阅读 · 0 评论 -
多种分布介绍
多项变量(Multinomial Variables)二元变量是用来描述只有两种可能值的量,而当我们遇到一种离散变量,其可以有K种可能的状态。我们可以使用一个K维的向量x表示,其中只有一维xk为1,其余为0。对应于xk=1的参数为μk,表示xk发生时的概率。其分布可以看做是伯努利分布的一般化。 现在我们考虑N个独立的观测D={x1,…,xN},得到其似然函数。如图: 多项式转载 2016-07-05 16:03:14 · 466 阅读 · 0 评论 -
LDA java
一、概述JGibbLDA是一个Java版本的LDA(Latent Dirichlet Allocation)实现,它使用Gibbs采样来进行快速参数估计和推断。LDA是一种由基于概率模型的聚类算法。该算法能够对训练数据(训练数据是这样一种记录的集合,它的每一条记录都是一组离散的项的集合)中的关键项集之于类簇的概率参数拟合模型,进而利用该参数模型实施聚类或分类等操作。如果你的转载 2016-07-05 15:50:13 · 738 阅读 · 0 评论 -
用 LDA 做主题模型:当 MLlib 邂逅 GraphX
主题模型可以从一系列文章中自动推测讨论的主题。这些主题可以被用作总结和整理文章,也可以在机器学习流程的后期阶段用于特征化和降维。在Spark 1.3中,MLlib现在支持最成功的主题模型之一,隐含狄利克雷分布(LDA)。LDA也是基于GraphX上构建的第一个MLlib算法。在这篇博文中,我们概述LDA和及其用例,并且解释GraphX是实现它最自然的方式。主题模型抽象地说,转载 2016-07-05 15:45:17 · 489 阅读 · 0 评论 -
中文分词工具
本文的目标有两个: 1、学会使用10大Java开源中文分词器2、对比分析10 大Java开源中文分词器的分词效果 本文给出了10大Java开源中文分词的使用方法以及分词结果对比代码,至于效果哪个好,那要用的人结合自己的应用场景自己来判断。10大Java开源中文分词器,不同的分词器有不同的用法,定义的接口也不一样,我们先定义一个统一的接口: /** * 获取文本的所有分词结果,转载 2016-07-22 20:52:20 · 867 阅读 · 0 评论 -
MLiA AdaBoost
1.元算法是对其他算法进行组合的一种方式。2.boosting方法3.adaboost分类器4.单层决策树(决策树桩)分类器(decision stump) 5.非均衡分类问题 6.基于数据集多重抽样的分类器 6.1. 基于数据随机重抽样的分类器构建方法:自举汇聚法 更先进的bagging算法:随机森林 6.2. boosting原创 2016-07-11 19:26:57 · 409 阅读 · 0 评论 -
Encoder-Decoder model couplet
/* 版权声明:可以任意转载,转载时请标明文章原始出处和作者信息 .*/ author: 张俊林在我看到第一篇Encoder-Decoder模型的论文的时候,我就觉得用这个来作对联自动生成是再合适不过的了,做诗词应该也是比较适合的,但是相对诗词转载 2016-06-12 21:52:46 · 1178 阅读 · 0 评论 -
神经网络
概述以监督学习为例,假设我们有训练样本集 ,那么神经网络算法能够提供一种复杂且非线性的假设模型 ,它具有参数 ,可以以此参数来拟合我们的数据。为了描述神经网络,我们先从最简单的神经网络讲起,这个神经网络仅由一个“神经元”构成,以下即是这个“神经元”的图示:这个“神经元”是一个以 及截距 为输入值的运算单元,其输出为 ,其中函数 被称为“激活函转载 2016-06-10 16:27:42 · 322 阅读 · 0 评论 -
random forest
机器学习算法复习--随机森林这里是截取曾经发表的http://www.cnblogs.com/wentingtu/archive/2011/12/13/2286212.html中一些内容基础内容:这里只是准备简单谈谈基础的内容,主要参考一下别人的文章,对于随机森林与GBDT,有两个地方比较重要,首先是information gain,其次是决策树。这里特别推荐Andrew Moor转载 2016-06-09 16:21:42 · 1599 阅读 · 0 评论 -
GBDT
GBDT(Gradient Boosting Decision Tree) 又叫 MART(Multiple Additive Regression Tree),是一种迭代的决策树算法,该算法由多棵决策树组成,所有树的结论累加起来做最终答案。它在被提出之初就和SVM一起被认为是泛化能力(generalization)较强的算法。近些年更因为被用于搜索排序的机器学习模型而引起大家关注。转载 2016-06-09 16:16:29 · 271 阅读 · 0 评论 -
lstm
1.逻辑函数:Logistic函数或Logistic曲线是一种常见的S形函数,它是皮埃尔·弗朗索瓦·韦吕勒在1844或1845年在研究它与人口增长的关系时命名的。广义Logistic曲线可以模仿一些情况人口增长(P)的S形曲线。起初阶段大致是指数增长;然后随着开始变得饱和,增加变慢;最后,达到成熟时增加停止。[1] logistic函数其实就是这样一个函数:非常简单吧,这个原创 2016-06-08 20:57:40 · 1527 阅读 · 0 评论 -
weka使用
Weka新手文章(一) 收藏数据仓库,数据分析,不涉及商业方面的高层决策之用,故本篇文章只适合初学数据仓库,为了完成老师作业,且想用weka做简单数据挖掘之用的童鞋。weka版本是3.6.2,数据库库是SQL Server 2005,没办法,老师提供的几万条数据保存在excel表中,如果从excel转为csv格式,再从weka中导入该csv文件,涉及到格式的转换,很是麻烦~况且几万条数转载 2016-06-08 21:31:02 · 1453 阅读 · 0 评论