2019年06月_精神抖擞王大鹏

12月 09月 08月 07月 06月 05月 03月 02月 01月

原创关键词提取

一般来说，TF-IDF算法和TextRank算法就可以满足大部分的关键词提取任务。但是在某些场景，基于文档本身的关键词提取还不是非常足够，有些关键词不一定会显式的出现在文档中，对于一些需要表现出文中没有的关键词提取，即叫主题模型。在自然语言理解任务中，我们可以通过一系列的层次来提取含义——从单词、句子、段落，再到文档。在文档层面，理解文本最有效的方式之一就是分析其主题。在文档集合中学习、...

2019-06-30 21:00:12 441

N-GRAM介绍：N-Gram是基于一个假设：第n个词出现与前n-1个词相关，而与其他任何词不相关。(隐马尔科夫当中的假设。)整个句子出现的概率就等于各个词出现的概率乘积。各个词的概率可以通过语料中统计计算得到。假设句子T是有词序列w1,w2,w3,…wn组成，用公式表示N-Gram语言模型如下：P(T)=P(w1)∗P(w2∣w1)∗p(w3∣w1w2)∗p(wn∣w1w2w3...)P(...

2019-06-27 17:15:21 949

原创 tensorflow遇到ImportError: Could not find 'cudart64_100.dll'错误解决

在安装tensorflow的时候，当用ipython使用import tensorflow出现的错误ImportError: Could not find 'cudart64_100.dll'简答：仔细分析错误的类型、原因搞清自己的tensorflow以及CUDA版本换用对应版本进行解决一. 错误类型原因...

2019-06-21 21:37:55 73956 53

原创 NLP基础-命名实体识别(一)基于规则

命名实体识别命名实体识别（Named Entity Recognition，简称NER）与自动分词，词性标注一样，命名实体识别也是自然语言处理中的一个基础任务，其目的是识别语料中的人名、地名、组织机构名等命名实体。基于规则的通常有两种方法第一是基于正则表达式的匹配，第二可以通过StanfordCoreNLPStanfordCoreNLP方法：ner.py: 主调用文件，用来读取文本#...

2019-06-13 11:19:11 7123

原创 Stanford CoreNLP配置常见错误总结

参考链接How to setup and use NLTK

2019-06-13 08:29:07 1992 1

原创 NLP基础-词性标注应用去除停用词

词性标注词性标注的应用就是通过词性来进行过滤，从而得到更有效的文本。方法是首先自定义字典–确定不想要的词性，第二步是把文件读进来后，先进行分词，根据分词的词语的词性对照词典中的词进行排除并重新拼接组合。关键字提取...

2019-06-07 21:56:40 4119

原创 NLP基础-准确分词(使用工具分词)

关于NLP相关包安装配置，可以参考：NLP工具包安装配置关于分词的原理可以参考：自然语言处理NLP-准确分词(原理)1. 加载字典来保证词可以分准对一些专业的名词来说，使用原有的词库可能无法很好的将词分开，比如在对医疗文本进行分类时，诸如：联合奥沙利铂、氟尿嘧啶单药等专用的药品名词。jieba中自定义词典的加载将开始没分准确的词放入字典中，就可以对其正确分词jieba中的词典，通过...

2019-06-04 21:37:15 1243