![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
NLP
c.x.y.07.30
这个作者很懒,什么都没留下…
展开
-
使用CRF++实现命名实体识别
【定义】 CRF++是著名的条件随机场的开源工具,也是目前综合性能最佳的CRF工具,采用C++语言编写而成。其最重要的功能是采用了特征模板。这样就可以自动生成一系列的特征函数,而不用我们自己生成特征函数,我们要做的就是寻找特征,比如词性等。 【安装】 在Windows中CRF++不需要安装,下载解压CRF++0.58文件即可以使用 【语料】 需要注意字与标签之间的分隔符为制表符\t played...原创 2020-04-27 17:20:42 · 772 阅读 · 0 评论 -
【NER】conlleval使用,生成评价结果
1.下载perl window 2.下载conlleval_rev.pl 3.原创 2019-12-05 16:19:33 · 1179 阅读 · 4 评论 -
【知识图谱】neo4j安装---linux
1、下载社区版的neo4j,不要去官网下载,我的下载地址是: http://neo4j.com.cn/topic/5b003eae9662eee704f31cee 2.无需安装,直接解压,然后进入它的bin目录,在终端敲:./neo4j start,点击终端弹出的最后的网址就可进入了(它的初始账户和密码都是neo4j) 3.如果报错,java jdk不匹配,则需要重新安装oracle j...原创 2019-11-05 15:02:11 · 174 阅读 · 0 评论 -
【NLP】NO3:文本可视化
常用可视化图:词云、分布图、Document Cards、树状图、网络图、力导向图、叠式图、Word Tree、地理热力图、ThemeRiver、SparkClouds、TextFlow、基于矩阵视图的情感分析可视化。 一、词云 分词、去停用词、统计词频、绘制词云 #引入所需要的包 import jieba import pandas as pd import numpy as np from s...原创 2019-08-20 19:51:28 · 417 阅读 · 0 评论 -
【NLP】NO2:中文关键词提取
一、基于TF-IDF提取关键词 import jieba.analyse #withWeight表示是否需要返回关键词权重值 #allowPOS表示指定的词性 word = " ".join(jieba.analyse.extract_tags(word,topK=20,withWeight=False,allowPOS=(['n','v']))) 二、基于TextRank提取关键词 1.核心思...原创 2019-08-20 19:30:09 · 349 阅读 · 0 评论 -
【NLP】NO1:自然语言处理的完整机器处理流程
二、中文自然处理的主要步骤 (1)语料清洗 1.人工去重、对齐、删除和标注 2.基于规则提取内容、正则表达式匹配 3.根据词性和命名实体提取 (2)中文分词—难点在于歧义和新词 1.基于字符串匹配的分词方法 2.基于理解的分词方法 3.基于统计的分词方法 4.基于规则的分词方法 (3) 词性标注 1.定义词的词性, 如形容词、 动词等, 在情感分析、 知识推理中用, 在文本分类中不用 2.基于统...原创 2019-08-20 16:19:30 · 785 阅读 · 3 评论 -
IOPub data rate exceeded问题解决
1.anaconda prompt中输入 jupyter notebook --NotebookApp.iopub_data_rate_limit=2147483647 2.其中2147483647可以任意修改原创 2019-08-09 12:00:48 · 8169 阅读 · 0 评论 -
【NLP】词的表示方式及word embeddings代码
1.one-hot编码 给每个词分配一个数字ID,如“爸爸”=1=[010],“妈妈”=2=[001] 缺点(1)高维度,稀疏(2)词之间相互独立,无法表示词之间的语义 2.分布式表示 (1)基于矩阵的分布表示 词的相似度转换为向量的空间距离 Global Vector模型 (2)基于聚类的分布表示 (3)基于神经网络的分布表示----词向量/词嵌入 word embedding词嵌入空...原创 2019-07-15 16:29:57 · 499 阅读 · 0 评论