斯坦福NER模型训练

coreNLP是斯坦福大学开发的关于自然语言处理的工具,包含了命名实体识别、词性标注、分词器等等功能,功能强大使用方便。可以在官网上下载coreNLP系列文件:https://stanfordnlp.github.io/CoreNLP/index.html#download
并在本地进行安装,注意需要首先安装java。
可以在网上搜索相关安装教程,本文重点是介绍如何通过stanford NER CRF训练出自己的NER模型。

1.NER简介

命名实体识别(Named Entity Recognition)是自然语言处理中比较常见的功能,使用范围广泛,是信息提取、句法分析、机器翻译等应用领域的基础工具。
命名实体通常指的是文本中具有特殊意义或指代性很强的实体,通常包括人名、地名、机构名、时间日期、专有名词等。NER就是从文本中识别上述实体。斯坦福的NER模型是基于条件随机场(Conditional Random Field, CRF)算法实现的。具体算法实现在另一篇文章中详述。
为了更好地使用斯坦福的NER工具,最好看一下CRFClassifier和NERFeartureFactory两个class的源码。

2. 数据准备

在本文的例子中,原始数据为公司招聘信息文本(JD),目的是抽取其中的“专业”名词,例如“工商管理”、“机械自动化”等等专业名词。选择了文本中的2000行进行手动标注,将其中80%的数据作为训练数据train.tsv,剩下的20%数据作为测试数据test.tsv。
训练数据必须是用tab分隔的多列形式,至少有两列

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
安装斯坦福NER模型需要遵循以下步骤: 1. 首先,你需要下载并安装Java JDK,可以从官方网站(https://www.oracle.com/technetwork/java/javase/downloads/index.html)下载,选择适合你操作系统的版本进行安装。 2. 接下来,你需要下载Stanford NER模型文件,可以从官方网站(https://nlp.stanford.edu/software/CRF-NER.html#Download)下载。选择适合你的模型,解压缩后将其保存到本地目录。 3. 下载Stanford NER的Java API,可以从官方网站(https://nlp.stanford.edu/software/CRF-NER.html#Download)下载。解压缩后,将其保存到本地目录。 4. 将Stanford NER的Java API添加到你的Java项目中,可以通过Maven或手动添加的方式。如果你使用Maven,可以在pom.xml文件中添加以下依赖项: ```xml <dependency> <groupId>edu.stanford.nlp</groupId> <artifactId>stanford-corenlp</artifactId> <version>3.9.2</version> </dependency> ``` 5. 在Java代码中,你可以使用以下代码加载Stanford NER模型并进行命名实体识别: ```java import edu.stanford.nlp.ie.crf.*; import edu.stanford.nlp.ie.AbstractSequenceClassifier; import edu.stanford.nlp.ling.CoreLabel; String serializedClassifier = "path/to/classifier"; AbstractSequenceClassifier<CoreLabel> classifier = CRFClassifier.getClassifier(serializedClassifier); String text = "text to be tagged"; String taggedText = classifier.classifyToString(text); ``` 其中,serializedClassifier是Stanford NER模型文件的路径。 这样你就可以成功安装Stanford NER模型并进行命名实体识别了。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值