- 博客(8)
- 资源 (15)
- 收藏
- 关注
原创 关键词提取
一般来说,TF-IDF算法和TextRank算法就可以满足大部分的关键词提取任务。但是在某些场景,基于文档本身的关键词提取还不是非常足够,有些关键词不一定会显式的出现在文档中,对于一些需要表现出文中没有的关键词提取,即叫主题模型。在自然语言理解任务中,我们可以通过一系列的层次来提取含义——从单词、句子、段落,再到文档。在文档层面,理解文本最有效的方式之一就是分析其主题。在文档集合中学习、...
2019-06-30 21:00:12 441
原创 N-GRAM文本挖掘
N-GRAM介绍:N-Gram是基于一个假设:第n个词出现与前n-1个词相关,而与其他任何词不相关。(隐马尔科夫当中的假设。)整个句子出现的概率就等于各个词出现的概率乘积。各个词的概率可以通过语料中统计计算得到。假设句子T是有词序列w1,w2,w3,…wn组成,用公式表示N-Gram语言模型如下:P(T)=P(w1)∗P(w2∣w1)∗p(w3∣w1w2)∗p(wn∣w1w2w3...)P(...
2019-06-27 17:15:21 949
原创 tensorflow遇到ImportError: Could not find 'cudart64_100.dll'错误解决
在安装tensorflow的时候,当用ipython使用import tensorflow出现的错误ImportError: Could not find 'cudart64_100.dll'简答:仔细分析错误的类型、原因搞清自己的tensorflow以及CUDA版本换用对应版本进行解决一. 错误类型原因...
2019-06-21 21:37:55 73956 53
原创 NLP基础-命名实体识别(一)基于规则
命名实体识别命名实体识别(Named Entity Recognition,简称NER)与自动分词,词性标注一样,命名实体识别也是自然语言处理中的一个基础任务,其目的是识别语料中的人名、地名、组织机构名等命名实体。基于规则的通常有两种方法第一是基于正则表达式的匹配,第二可以通过StanfordCoreNLPStanfordCoreNLP方法:ner.py: 主调用文件,用来读取文本#...
2019-06-13 11:19:11 7123
原创 NLP基础-词性标注应用去除停用词
词性标注词性标注的应用就是通过词性来进行过滤,从而得到更有效的文本。方法是首先自定义字典–确定不想要的词性,第二步是把文件读进来后,先进行分词,根据分词的词语的词性对照词典中的词进行排除并重新拼接组合。关键字提取...
2019-06-07 21:56:40 4119
原创 NLP基础-准确分词(使用工具分词)
关于NLP相关包安装配置,可以参考:NLP工具包安装配置关于分词的原理可以参考:自然语言处理NLP-准确分词(原理)1. 加载字典来保证词可以分准对一些专业的名词来说,使用原有的词库可能无法很好的将词分开,比如在对医疗文本进行分类时,诸如:联合奥沙利铂、氟尿嘧啶单药等专用的药品名词。jieba中自定义词典的加载将开始没分准确的词放入字典中,就可以对其正确分词jieba中的词典,通过...
2019-06-04 21:37:15 1243
nlp-requirements安装包
2019-06-08
selenium webdriver第三版
2018-09-03
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人