好段落句子摘抄

最新推荐文章于 2018-11-14 22:18:09 发布

云杉123

最新推荐文章于 2018-11-14 22:18:09 发布

阅读量967

点赞数

分类专栏：机器学习算法

本文链接：https://blog.csdn.net/u011531010/article/details/52483929

版权

机器学习算法专栏收录该内容

9 篇文章 0 订阅

订阅专栏

创新思路：
Encoder-Decoder是个创新游戏大杀器，一方面如上所述，可以搞各种不同的模型组合，另外一方面它的应用场景多得不得了，比如对于机器翻译来说，<X,Y>就是对应不同语言的句子，比如X是英语句子，Y是对应的中文句子翻译。再比如对于文本摘要来说，X就是一篇文章，Y就是对应的摘要；再比如对于对话机器人来说，X就是某人的一句话，Y就是对话机器人的应答；再比如……总之，太多了。哎，那位施主，听老衲的话，赶紧从天台下来吧，无数创新在等着你发掘呢。没有引入注意力的模型在输入句子比较短的时候估计问题不大，但是如果输入句子比较长，此时所有语义完全通过一个中间语义向量来表示，单词自身的信息已经消失，可想而知会丢失很多细节信息，这也是为何要引入注意力模型的重要原因。

一、 word2vec中关于词向量的阐述

http://blog.sina.com.cn/s/blog_584a006e0101rjlm.html
（1）One-hot Representation，这么简洁的表示方法配合上最大熵、SVM、CRF 等等算法已经很好地完成了 NLP 领域的各种主流任务。当然这种表示方法也存在一个重要的问题就是“词汇鸿沟”现象：任意两个词之间都是孤立的。光从这两个向量中看不出两个词是否有关系，哪怕是话筒和麦克这样的同义词也不能幸免于难。

（2）a、Deep Learning 中一般用到的词向量并不是刚才提到的用 One-hot Representation，而是Distributed Representation，表示的一种低维实数向量，维度以 50 维和 100 维比较常见。最大的贡献就是让相关或者相似的词，在距离上更接近了。向量的距离可以用最传统的欧氏距离来衡量，也可以用 cos 夹角来衡量。

b、Distributed representation 用来表示词，通常被称为“Word Representation”或“Word Embedding”，中文俗称“词向量”，比较：如果用传统的稀疏表示法表示词，在解决某些任务的时候（比如构建语言模型）会造成维数灾难[Bengio 2003]。用低维的词向量就没这样的问题。同时从实践上看，高维的特征如果要套用 Deep Learning，其复杂度几乎是难以接受的，因此低维的词向量在这里也饱受追捧。同时如上一节提到的，相似词的词向量距离相近，这就让基于词向量设计的一些模型自带平滑功能，让模型看起来非常的漂亮。

二、这两种向量的表达方式怎么生成，用什么工具？

Word Embedding可以用Word2Vec工具包来进行训练。

三、池化层

1、什么是池化层？

在卷积神经网络中，我们经常会碰到池化操作，而池化层往往在卷积层后面，通过池化来降低卷积层输出的特征向量，同时改善结果（不易出现过拟合）。

2、为什么可以通过降低维度呢？

因为图像具有一种“静态性”的属性，这也就意味着在一个图像区域有用的特征极有可能在另一个区域同样适用。因此，为了描述大的图像，一个很自然的想法就是对不同位置的特征进行聚合统计，例如，人们可以计算图像一个区域上的某个特定特征的平均值 (或最大值)来代表这个区域的特征。

3、池化有那些操作？

最常见的池化操作为平均池化mean pooling和最大池化max pooling：
平均池化：计算图像区域的平均值作为该区域池化后的值。
平均池化：选图像区域的最大值作为该区域池化后的值。

四、理想情况下哈希表插入和查找操作的时间复杂度均为O(1)，任何一个数据项可以在一个与哈希表长度无关的时间内计算出一个哈希值（key），然后在常量时间内定位到一个桶（术语bucket，表示哈希表中的一个位置）。当然这是理想情况下，因为任何哈希表的长度都是有限的，所以一定存在不同的数据项具有相同哈希值的情况，此时不同数据项被定为到同一个桶，称为碰撞（collision）。哈希表的实现需要解决碰撞问题，碰撞解决大体有两种思路，第一种是根据某种原则将被碰撞数据定为到其它桶，例如线性探测——如果数据在插入时发生了碰撞，则顺序查找这个桶后面的桶，将其放入第一个没有被使用的桶；第二种策略是每个桶不是一个只能容纳单个数据项的位置，而是一个可容纳多个数据的数据结构（例如链表或红黑树)，所有碰撞的数据以某种数据结构的形式组织起来。

五、t-SNE: 高维数据在二维或者三维空间上的数据点位置的可视化表示。

六、霍金曾经说过，你多写一个公式，就会少一半的读者。所以时间简史这本关于物理的书和麦当娜关于性的书卖的一样好。
七、隐性马尔可夫模型，是一个概率模型，用来描述一个系统隐性状态的转移和隐性状态的表现概率。
系统的隐性状态指的就是一些外界不便观察(或观察不到)的状态, 比如在当前的例子里面, 系统的状态指的是大叔使用骰子的状态，即{正常骰子, 作弊骰子1, 作弊骰子2,...}，隐性状态的表现也就是, 可以观察到的，由隐性状态产生的外在表现特点。这里就是说, 骰子掷出的点数.{1,2,3,4,5,6}

八、在深度学习中加入长期记忆（Long-term memory）以构建自然语言问答系统，开源深度学习框架Torch的更新和推广，运用快速傅利叶变换加速卷积运算的CuFFT，

九、EM （Expectation-Maximization）期望值最大化，简称EM过程 EM过程保证算法收敛到一个局部最优点，很遗憾他一般不能保证找到全局最优点。如果目标函数是凸函数（比如信息熵），则只有一个最优点，这种情况下EM过程可以找到最佳值

十、隐形马尔可夫模型最初应用到通信领域，继而推广到语音和语言处理中，成为连接自然语言处理和通信的桥梁。
同时，它也是机器学习的主要工具之一。和几乎所有的机器学习的模型工具一样，他需要一个训练算法(鲍姆-韦尔奇算法)和使用时的解码算法(维比特算法)，掌握这两类算法，基本上既可以使用隐形马尔科夫模型这个工具了

十一、1949年香农在他的著名的论文'通信的数学原理'中提出信息熵的概念，解决了信息的度量问题，并且量化出信息的作用。信息量就等于不确定性的多少。熵的数学表达式 H = -∑p(xi)log(2,p(xi)) (i=1,2,..n)，联合熵定义为两个元素同时发生的不确定度。联合熵H(X,Y)= ∑(x,y)p(x,y)logp(x,y)=H(X)+H(Y|X)

十二、递归函数函数直接或间接调用函数本身，则该函数称为递归函数

十三、在划分数据集之前之后信息发生的变化成为信息增益，获取信息增益最高的特征就是最好的特征。

十四、杨静lillian：刘教授可总结一下，认知计算未来您最看好的技术突破么？需要从您的角度给出趋势判断。
刘挺：我是自然语言处理、社会媒体处理方面的研究者，视野有限。
自然语言处理技术趋势： 1. 从句法分析向深度语义分析发展；
2. 从单句分析向篇章（更大范围语境）发展；
3. 引入人的因素，包括众包等手段对知识进行获取；
4. 从客观事实分析到主观情感计算；
5. 以深度学习为代表的机器学习技术在 NLP 中的应用

高考文科机器人只是一种测试智能水平推动学术发展的手段，高考机器人技术一旦突破，将像沃森一样甚至比沃森更好的在教育、医疗等各个领域推动一系列重大应用。我的观点不仅代表我个人，也代表我实验室多位老师，包括文本挖掘与情感分析技术方面的秦兵教授、赵妍妍博士，自然语言处理方面的车万翔副教授，问答领域的张宇教授、张伟男博士，社会媒体处理领域博士生丁效、景东讲师。也期望将来各位专家对我的同事们给予指点。

十五、我们认为计算有四个高级阶段：感知计算、认知计算、决策计算和创造计算。语音识别、图像识别属于感知层面，语言理解、图像视频的理解、知识推理与数据挖掘属于认知计算，在人类认知世界并认清规律的基础上，需要对社会发展的未来进行预测并辅助决策，更高的计算则是创造计算，比如我们正在研制的机器自动作文属于创造计算。
情感与认知密切相关，应该属于认知计算层面。

十六、在搜索引擎中，海量的数据掩盖了智能推理能力的不足。但是在类似高考这样的需要细粒度的知识问答的场景里面仅靠海量数据是远远不够的，因而将把更深层次的语言理解与推理的困难暴露在研究者面前，推动技术向更深层发展。举例而言，有用户问：“肯尼迪当总统时，英国首相是谁？”，这个问题很有可能在整个互联网上均没有答案，必须通过推理得到，而人类其实常常想问更为复杂的问题，只是受到搜索引擎只能理解关键词的限制，使自由提问回退为关键词搜索。

十七、这个三层神经网络本身是对语言模型进行建模，但也同时获得一种单词在向量空间上的表示，而这个副作用才是Word2vec的真正目标。与潜在语义分析（Latent Semantic Index, LSI）、潜在狄立克雷分配（Latent Dirichlet Allocation，LDA）的经典过程相比，Word2vec利用了词的上下文，语义信息更加地丰富学习到的词向量代表了词的语义，可以用来做分类、聚类、也可以做词的相似度计算。此外，Word2vec本身的层次分类器或者采样方式实际上对热门item做了很大的惩罚，所以不会像一般的矩阵分解一样，最后算出来语义接近的都是热门词，这也是word2vec很好的一个特性。对于短文本分类，直接把文档里面所有的word对应的向量线性相加，作为文本的特征训练分类器，效果也很不错。这种方式其实在word2vec的训练过程中也有使用。另外如果换成非线性分类器，比如rbf kernel SVM，分类准确度还能再高，这个也是符合预期的
举几个我尝试过的。
1. 相似词我把它比作完型填空
2.词的特征扩充在term weight 里很有用
3.关系挖掘看哈工大论文学习的
4.序列点击数据的分析效果还行
5.相关词挖掘用在品牌词和品牌相似词挖掘中
6.句子vector 在gensim 中有代码，论文中效果很好。不过自己测试效果很一般，还不如bayes。。。
7.作为其它如火如荼的cnn rnn rnn-lstm 系列的初始化输入特征word 2vec 算这里面最好的成果了，模型简单，效率高，易调参。
word2vec在工业界的应用场景-大数据算法 http://x-algo.cn/index.php/2016/03/12/281/

十八、在中文命名实体识别中，现在比较好（准确率和召回率）的算法都有哪些？
另外基于条件随机场CRF的中文命名实体识别效率如何？ - 命名实体识别 - 知乎 https://www.zhihu.com/question/19994255

主要介绍三种主流算法，CRF，字典法和混合方法。

云杉123

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
好段落句子摘抄

创新思路： Encoder-Decoder是个创新游戏大杀器，一方面如上所述，可以搞各种不同的模型组合，另外一方面它的应用场景多得不得了，比如对于机器翻译来说，就是对应不同语言的句子，比如X是英语句子，Y是对应的中文句子翻译。再比如对于文本摘要来说，X就是一篇文章，Y就是对应的摘要；再比如对于对话机器人来说，X就是某人的一句话，Y就是对话机器人的应答；再比如……总之，太多了。哎，那位施主，听
复制链接

扫一扫