自然语言处理
NeverMore_7
野鸡大学CS学生
展开
-
RNN结构及反BPTT向传播算法
写在前面传统的人工神经网络(Artificial Neural Network,ANN)存在很多局限性,在不断发展中,出现了真对图像数据的卷积神经网络(Convolutional Neural Network,CNN),解决了图像数据大,权重参数过多难以训练的问题。以及针对有序序列数据的循环神经网络(Recurrent neural Network,RNN),不谋而合的是在这两种网络中都采用了权重共原创 2017-08-16 14:17:04 · 700 阅读 · 0 评论 -
局部敏感哈希 LSH
引言局部敏感哈希(Locality-Sensitive Hashing, LSH)是用来解决高维检索问题的算法。想象一下,现在有数量庞大的数据点,每个点的维度可能几千或几万,给定一个点p,在这数据点集中寻找到可p最近的点或者最近的k个点。思路很清晰,我们必须要计算p到每个点的距离,根据计算结果排序,选择最近的点或者前k个点,距离可以用L1或L2泛数计算。这样的线性搜索,时间复杂度极高,效率地下。LS原创 2017-08-03 17:30:42 · 2411 阅读 · 0 评论 -
NLP——分词之正向(逆向、双向)最大
引言自然语言处理(Natural Language Processing,NLP)一直是个研究的热点,随着神经网络(Neural Network,NN)的再次兴起,以及深度学习(Deep Learning,DL)的迅速发展,NLP也开始起飞。由于计算机只认识数字符号,对于英文、汉字这类“高级语言”计算机还没考过1级证书。就像一个婴儿,你喂他吃饭,不能一开始就喂一些高难度的食物嘛,扔给他一只龙虾。“朋原创 2017-08-04 15:02:53 · 3080 阅读 · 0 评论 -
【PRML】—— 共轭分布
写在前面《pattern recognition and machine learning,PRML》一直广受好评,全书从数学思想的方面介绍模式识别和机器学习,阅读之前需要一些数学只是,如果大学本科的数学(高等数学、概率和梳理统计、线性代数)还没完全忘记的话,阅读起来应该不是难事。另外一点,你需要静下心来慢慢读,细细品味(第一次读这本书的时候,读了几个章节就完全懵逼了 - -!)。这是第二次拿起来读原创 2017-08-14 15:18:23 · 995 阅读 · 0 评论 -
集成学习之Adaboost
写在前面在前面的文章集成学习中对集成学习的大致思想进行了概括性的说明,根据模型之间是否存在依赖可将集成学习分为串行和并行两种,前者依赖于上一次模型的预测结果,后者模型之间并不相互依赖,Adaboost是boosting的最为人所知的模型,既可以用作回归任务,也可用于分类任务。Adaboost框架原理前面的文章中,已经对boosting框架的原理进行了说明,这里我们不厌其烦的再次给出boosting的原创 2017-09-05 03:32:38 · 1368 阅读 · 0 评论 -
软权值共享
前言权值共享是一种减小深度网络中参数数量的方法,常见于卷积神经网络(CNN)。在CNN中每一个特征图是一组相同的参数对图像进行卷积中,每一组参数对应着图像每个局部的特征。这样的的权值共享叫做硬权值共享。而某些场景下,我们并不能这样使用同一组参数作,而使用相似的参数,这叫做软权值共享。软权值共享以一种正则化的形式给出。软权值共享我们常见的正则化形式是λwwT\lambda ww^T,如果将权值看作是符原创 2017-09-08 18:19:33 · 2215 阅读 · 0 评论 -
集成学习
写在前面在接触到kaggle案例后,见识到集成学习的威力,集成学习是一种”博众之长”的思想。例如一个项目,搞算法的、写代码的、做UI的等等均是不同的人,单独出来这些人都不能完成项目,把这些人聚集在一起,发挥自己的专长,则可以高质量的完成工作,而将这些人联系在一起的便是项目规划书。集成学习也是这样的一个思想。有时候单个的学习算法不足以解决问题,可能算法的结果不够准确。但将这些算法模型组合起来便可以得出原创 2017-09-02 05:33:43 · 780 阅读 · 0 评论 -
python科学计算之narray对象
写在前面最近在系统的看一些python科学计算开源包的内容,虽然以前是知道一些的,但都属于零零碎碎的,希望这次能把常用的一些函数、注意项整理下。小白的一些废话,高手请略过^ _ ^。文章中的函数仅仅是为了自己好理解,并没有按照官方文档上的函数声明形式记录。numpy.narray numpy.narray创建numpy.narray的构造方式挺多的,这里就不一一说明,因为一般情况下,在进行科学原创 2017-11-14 11:45:51 · 7671 阅读 · 0 评论 -
python科学计算之numpy——ufunc函数
写在前面ufunc是universal function的缩写,意思是这些函数能够作用于narray对象的每一个元素上,而不是针对narray对象操作,numpy提供了大量的ufunc的函数。这些函数在对narray进行运算的速度比使用循环或者列表推导式要快很多,但请注意,在对单个数值进行运算时,python提供的运算要比numpy效率高。四则运算numpy提供的四则ufunc有如下一些: n原创 2017-11-15 14:15:01 · 18867 阅读 · 1 评论