自然语言处理
文章平均质量分 64
jiangzhenkang
这个作者很懒,什么都没留下…
展开
-
自然语言中的分词(一)分词的基本背景
自然语言中的分词(一)分词的基本背景序言:最近了解了一下分词的知识、所以前来总结一下目前只要包括分词的背景介绍分词的理论方法介绍几种常见分词工具的分词方法超详细实现常见的分词方法分词的基本问题汉语分词基本会遇到以下三类问题:分词规范问题歧义词问题未登录词问题分词规范问题这主要是因为人们对分词的标准难以统一,难以量化,虽然国家出台过规范...原创 2018-10-22 22:54:32 · 695 阅读 · 0 评论 -
隐马尔科夫
隐马尔科夫(HMM)简介隐马尔科夫可以用于序列标注问题,比如分词过程,假设分词按照BEOS过程,在这里,隐马尔科夫就是从隐马尔科夫模型生成隐藏状态序列基本参数初始概率向量π:就是我一开始分别是B、E、O、S的概率如{”B“:0.6,“S”:0.4}状态转移概率A:就是我从其中一个隐状态到达另一个隐藏状态的概率,如:当前为B,则下一个字符是E的概率是0.8观测概率矩阵B:就是...原创 2019-01-31 13:43:02 · 350 阅读 · 0 评论 -
Strong Baselines for Simple Question Answering over Knowledge Graphs with and without Neural Network
标签(空格分隔): 自然语言处理简介在简单的神经网络上就能达到较好的效果即使不用神经网络,也能达到较好的效果相关工作一开始的时候人们会把简单问句简化成一个结构化的问句最近的一个数据集已经成为了知识图谱上的问答基线本文并不认为人们已经充分探索了baseline方法论本文将QA问题分为四个部分:实体识别、实体链接、关系预测、证据整合github:https://g...原创 2019-01-08 10:55:02 · 542 阅读 · 2 评论 -
最大频率分词的一些测试结果
基于动态规划的最大频率分词写在前面基于动态规划的最大频率分词是一种比较简单的分词方法,jieba分词就用了这种分词方法(当然还有HMM)博主对该分词方法做了一下简单的测试测试数据集选的是微软的分词测试集和清华的分词测试集两个测试集都有一定的训练数据和测试数据基本情况如下:数据集训练集数量测试集数量微软869243985清华19056194...原创 2019-01-06 16:38:23 · 402 阅读 · 0 评论 -
TextCNN图示
TextCNN图示标签(空格分隔): 自然语言处理论文地址https://www.aclweb.org/anthology/D14-1181图示下图分了四部分,从左到右分别是a,b,c,d,我们分开解释a, 就是输入的文本,假设最大文本长度是100,词向量维度是300,所以a(输入文本)的维度是100 * 300b,进行卷积,利用的不同大小(2 * 300,3300,4300...原创 2018-12-19 10:39:33 · 781 阅读 · 0 评论 -
# Strong Baselines for Simple Question Answering over Knowledge Graphs with and without Neural Netwo
# Strong Baselines for Simple Question Answering over Knowledge Graphs with and without Neural Networks标签(空格分隔): 自然语言处理简介在简单的神经网络上就能达到较好的效果即使不用神经网络,也能达到较好的效果相关工作一开始的时候人们会把简单问句简化成一个结构化的问句最近的...原创 2018-12-18 14:02:07 · 655 阅读 · 0 评论 -
NELL框架
文章目录Never-Ending LearningAbstractIntroductionRelated WorkNerer-Ending-Learning举个例子,永动学习机NELL的学习问题实证评估最后讨论优势劣势缺陷#信息抽取(Nell框架论文)标签(空格分隔): 自然语言处理Never-Ending LearningAbstractIntroduction机器学习作为AI的一...原创 2018-12-07 16:24:35 · 4010 阅读 · 0 评论 -
Chinese NER Using Lattice LSTM
文章目录Chinese NER Using Lattice LSTM论文链接文章主旨简介论文模型基于字符的模型基于词的模型Lattice模型CRF吹逼时刻(实验效果)Chinese NER Using Lattice LSTM标签(空格分隔): 自然语言处理论文链接https://pan.baidu.com/s/1FVzPt8yKe2e5PYcEs5wMpwhttp://xueshu...原创 2018-12-09 12:01:45 · 1228 阅读 · 0 评论 -
HMM的维特比算法的一个实际例子
HMM的维特比算法的一个实际例子标签(空格分隔): 自然语言处理用一个分词的HMM的例子做个解释任务:将“我来到苏州”分词理想结果【“我”,“来到”,“苏州”】定义参数要定义的参数主要有:状态参数、结果参数、初始化参数、转移概率、发射概率状态参数:这里就是每个字符的状态,我们采用简单的“BES“标记,如果一个字符作为一个词的开头则为B,如例子中的”来“,”苏“;如果一个字符...原创 2018-11-26 20:32:16 · 2767 阅读 · 1 评论 -
FastText
FastText标签(空格分隔): 自然语言处理FastTextFastText 论文链接https://pan.baidu.com/s/1032UerrzaZbJGjb3-PavoA综述FastText不是一种特殊的机构,而是一种思想,就是为了更快的求得结果。用于文本分类的FastText(pytorch)class FastText(BasicModule): ...原创 2018-11-22 16:37:54 · 440 阅读 · 0 评论 -
LSTM
LSTM标签(空格分隔): 自然语言处理说说lstm(转https://www.cnblogs.com/wangduo/p/6773601.html?utm_source=itdadao&utm_medium=referral)该文作者信息作者:wangduo出处:http://www.cnblogs.com/wangduo/本博客中未标明转载的文章归作者wangduo和博客...转载 2018-11-22 16:16:13 · 8503 阅读 · 0 评论 -
LDA主题模型实战
导入相关的包https://github.com/lda-project/lda 这里有lda包的文档,我也是参考的这个文档来的!import numpy as npimport lda X = lda.datasets.load_reuters()X.shape(395, 4258)这里说明X是395行4258列的数据,说明有395个训练样本vocab = lda....原创 2018-11-22 10:59:28 · 4376 阅读 · 1 评论 -
TFIDF解释与简单实现
TFIDF介绍本文所讲的所有例子均为一下例子corpus = [["我","a","e"],["我","a","c"],["我","a","b"]]TFIDF全程叫做term frequency–inverse document frequency,翻译过来可以叫做文本频率与逆文档频率指数, TFIDF就是为了表征一个原创 2019-02-02 14:59:31 · 23137 阅读 · 5 评论