Katherine_C_nlp-CSDN博客

原创 NB以及其在工程上的一些应用

贝叶斯算法算是一个非常非常老的一个算法了，工业界用到这个算法运用最多的场景是NLP的分类问题。这个算法很简单，好理解，可解释性很强，比如说是见到了哪些词才做出了这样的判定。这个算法通常需要大量的数据，也就是说需要有足够大的训练语料。简要说一下贝叶斯公式，很easy的。P(Y, X) = P(X| Y)P(Y) = P(Y|X)P(X)。这里一般来说，X是某些特征，Y为属于某类，就是类别标签。P...

2018-08-16 09:45:10 442

原创 LDA模型详解

LDA是自然语言处理中非常常用的一个主题模型，全称是隐含狄利克雷分布（Latent Dirichlet Allocation），简称LDA。作用是将文档集中每篇文档的主题以概率分布的形式给出，然后通过分析分到同一主题下的文档抽取其实际的主题（模型运行结果就是一个索引编号，通过分析，将这种编号赋予实际的意义，通常的分析方法就是通过分析每个topic下最重要的term来进行总结归纳），根据主题分布进行...

2018-08-14 14:26:06 43617 7

原创最大熵模型详解

最大熵模型可用于自然语言处理中歧义消解的问题，再有就是《数学之美》中很经典的拼音转汉字问题、词性标注、句法分析、机器翻译等相关任务中也有相应的应用场景。这个模型可以将各种信息整合到一个统一的模型中，是唯一一种既可以满足各个信息源的限制条件，同时又能保证平滑性的模型。最大熵模型是由最大熵原理推到得来的，在正式了解最大熵模型之前，很有必要理解最大熵原理。所谓的最大熵原理就是说，鸡蛋不要放在一...

2018-08-13 11:08:40 1770

原创 word2vec行为序列建模简述

word2vec是一个无监督算法，广泛用于NLP领域中，但是其整体的向量化思路是可以用与其他序列问题中的。word2vec适合的情况就是对于一个序列的数据，在序列局部数据间存在着很强的关联。文本中邻近的词之间关联很强，一个词语的含义可以由其上下文直接推断出来，所以在文本中应用较广泛。近些年来，一些研究者发现，在线用户行为的时间序列数据同样也可以起到上下文的作用，即当用户浏览并和不同内容进行交互时，...

2018-08-09 16:22:23 5080

原创 word2vec详解

在NLP领域里，将一个单词用一个有限维的向量表示基本上已经成为现在进行文本处理的一个标配步骤。在word2vec这个神器出现以前，比较通用的解决步骤是WordNet，可以认为它是一个类似词典一样的存在，查每个词对应的同义词、上位词等信息，好虽好，但是需要人工维护，而且缺乏对词语新的含义的挖掘，不能做到实时更新，虽然能够找到一个词的同义词，但是词之间的相似度到底有多高这个指标很难度量。传统one-h...

2018-08-09 14:07:46 844

原创 LR详解

对于文本分类这个经典问题，很多传统机器学习的算法都是适用的，比如说逻辑回归（LR）的表现就很优秀。在用LR进行文本分类的时候，最主要的是如何解决特征之间的非线性关系。所谓的非线性关系是指，一个特征和另外特征相关，而且为非线性的关系。举个简单的例子，就是线性关系，而就是非线性关系。对于这个问题的解决主要有以下几个方式：多元特征模型、boosting、nb-norm、去除非线性特征。照例还是先从原...

2018-08-06 21:19:31 1323

原创 sklearn中LinearSVC源码解析

工作过程中，很多时候为了快速验证一个可能可行的思路，先上来用一下现成的模型跑一跑看一下结果，前一段时间在做浏览器网址分类，把一个URL进行特征抽取，差不多一个URL抽出了20-30个特征，第一个想法就是先用多分类SVM看一下效果，为了快速验证思路，直接用python中sklearn库的LinearSVC类进行训练的。分析团队只给我标注了10000个样本，所以准确率最高只有86%。 skle...

2018-08-01 14:19:50 3392 2

转载周志华：满足这三大条件，可以考虑不用深度神经网络

原文地址：https://36kr.com/p/5129474.htmlAI科技大本营按：4 月 15 日举办的京东人工智能创新峰会上，刚刚上任京东人工智能南京分院学术总顾问的周志华教授做了《关于深度学习一点思考》的公开分享。近年来，深度神经网络在语音、图像领域取得突出进展，以至于很多人将深度学习与深度神经网络等同视之。但周志华表示，总结 Kaggle 竞赛中的获奖结果可以发现，神经网络获...

2018-07-31 16:05:02 575

原创 SVM多分类

最原始的SVM是用来进行二分类的，如果要应用在多分类问题上的话，若直接在目标函数上进行修改，即将多个分类面的参数求解合并到一个最优化问题上，这样的话难度太大，不适用。有三种方法来间接实现多分类问题。一、one - vs - rest这种方法很简单粗暴。基本思想就是将某一类归为正类，其余的全为负类，训练出好多二分类器。就比如说，先将类别1的样本定为正样本，其余类为负样本，训练得到一个二分类器...

2018-07-31 12:28:50 1672

原创 SVM详解

对于用传统机器学习方法进行文本分类的算法来说，SVM可以说是一个首选，相当于baseline一样的存在，一个重要原因可能是：若将每个单词作为文本的一个属性，则该属性空间维数很高，冗余度很大，其描述能力足以将不同文档“打散”，使用SVM模型能够在文本分类中表示出卓越的性能。SVM是用来解决二分类问题的，通过支持向量来找最优超平面，该超平面是唯一的，对训练样本局部扰动的容忍性最好，最鲁棒，对未见实...

2018-07-31 10:55:11 1352 1

原创 Dialog System and Chatbots —— DA学习笔记4

二、对话状态：解释对话行为对话状态包括到当时节点为止框架的整个状态，需要总结用户的整体限制条件（constraint）对于如何判断用户的输入是一个question、statement还是一个suggest，一个稍简单的方法是对于yes-no类问题可使用语法原则aux-inversion（即助动词出现在主语之前多为yes-no类问题），但是对于用yes-no问题包装起来的请求（一种较为p

2018-01-05 10:27:45 483 1

原创 Dialog System and Chatbots —— DA学习笔记5

根据微软的一个研究报告，自己做的一个简要总结人机对话问题可以分为以下4个子问题：自然语言聊天、任务驱动的多轮对话、问答、推荐一、自然语言聊天要求：不限domain，在用户的query没有明确的服务获取需求时系统可以做出不尴尬的回应，顺滑对话过程。这种可以拉进距离，建立情感关联，提高用户粘性需要将自然语言的query进行结构化语义表示，即dialog act。一个di

2018-01-04 18:09:52 573

原创 Dialog System and Chatbots —— DA学习笔记2

对于Seq2Seq类型的chatbot：在意识到和MT问题的不同之后，用seq2seq的方法貌似不能解决chatbot的问题，在2015年的时候，提出了转换模型(transduction model)用于应答生成。如果非要用seq2seq模型来解决这个问题的话，需要进行大量调整。(1) 基本的seq2seq模型倾向于生成predictable but repetitive theref

2017-12-29 12:30:38 721

原创 Dialog Systems and Chatbots　——　DA学习笔记１

前言：正常人进行对话的一个general rule是: do not dwell on any one subject. But to pass lightly from one to another without effort and without affectation. To know how to speak about trivial topics as well as seriou

2017-12-28 15:34:58 662

原创 Spotlight1 一词多义（Polysemy）

在CS224n的一个Spotlight中提到了一词多义的问题，比如句子中出现了一个tie，到底是比赛平局，还是领带，还是绳子打结的意思？虽然说在w2v中相似的词被映射到相邻近的位置，但是一个词在词向量空间不会对应n多个向量，只有一个。经证明，一个词的词向量是所有义项的平均，也就是映射到了这些义项的中间。那么问题来了，如何还原这些义项呢？论文里说，义项是由以下函数进行的sparse

2017-12-21 20:04:36 784

原创 CS224n学习笔记：Lecture1 & 2

NLP的简要概述，w2v的一部分内容p.s.该系列笔记是为了自己日后方便查看和复习，不必再看原始的资料

2017-12-21 15:46:01 5001

原创关键词提取

仅是关键词提取的一些常用算法概述，至于各个算法的具体实现细节和在spark上运行的时候遇到的坑，后续博客里继续

2017-10-31 14:43:57 5198 1

Katherine_Cai_7的博客