python命名实体识别工具_Day14：使用斯坦福 NER 软件包实现你自己的命名实体识别器（Named Entity Recognition，NER）...

最新推荐文章于 2024-01-25 01:54:24 发布

weixin_39606137

最新推荐文章于 2024-01-25 01:54:24 发布

阅读量339

点赞数

文章标签： python命名实体识别工具

本文链接：https://blog.csdn.net/weixin_39606137/article/details/111884382

版权

本文介绍如何利用斯坦福NER软件包在Python中实现命名实体识别（NER），通过Twitter数据建立实时职位搜索，识别出公司、地点和联系人。详细步骤包括设置NER服务器、配置依赖、开启CDI、创建分类器豆和REST资源，最终部署到OpenShift并返回JSON结果。

摘要由CSDN通过智能技术生成

编者注：我们发现了有趣的一系列文章《30天学习30种新技术》，正在翻译中，一天一篇更新，年终礼包。下面是第 14 天的内容。

我并不是一个机器学习(Machine Learning)、自然语言处理(Natural Text Processing，NLP)等的狂热者，但我总会想到一些需要用到它们的主意。我们今天在这篇博文中要实现的目标是：利用 Twitter 数据建立一个实时的职位搜索。每个单独的搜索结果要包括提供职位的公司名称、工作的地点、去公司应聘时联系的人。这需要我们从个人(Person)、地点(Location)、组织(Organisation)三方面去分析每一条推(tweet)。这类问题被归为命名实体识别(Named Entity Recognition，NER)问题。

根据维基百科的资料，命名实体识别是信息提取(Information Extraction)的一个子任务，它把文字的原子元素(Atomic Element)定位和分类好，然后输出为固定格式的目录，例如: 人名、组织、位置、时间的表示、数量、货币值、百分比等。

为了说的更明白，我们来举个例子。假设我们有下面这条推：

一个普通人可以轻易地分辨出一个名为 PSI Pax 的组织在 Baltimore 有个空缺的职位。但是我们怎么用编程的方式来完成这个识别呢? 最简单的办法是维护一个包含所有组织名称、地点的列表，然后对这个列表进行搜索。然而，这种做法的可扩展性太差了。

今天，在这篇博文中，我会描述如何用斯坦福 NER(Stanford NER) 软件包去设置我们自己的 NER 服务器。

什么是斯坦福 NER？

斯坦福 NER 命名实体识别(Named Entity Recognizer，NER)的 Java 实现。 NER 标识一段文字中的一系列名词，例如人名、公司名，又或者基因名、蛋白质名。

前期准备

一些基本的 Java 知识是需要的。在你的操作系统上安装最新版本的 JDK，你可以安装 OpenJDK 或者 Oracle JDK 7。OpenShift 支持 OpenJDK 6 和 7.

注册一个 OpenShift 账户。这是完全免费的，而且红帽(Red Hat)会给每个用户三个免费的 Gears，在 Gears 上你可以运行你的程序。在这篇文章写的时候，OpenShift 会为每个用户分配 1.5GB 的内存和 3GB 的硬盘空间。

最低0.47元/天解锁文章

weixin_39606137

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python命名实体识别工具_Day14：使用斯坦福 NER 软件包实现你自己的命名实体识别器（Named Entity Recognition，NER）...

编者注：我们发现了有趣的一系列文章《30天学习30种新技术》，正在翻译中，一天一篇更新，年终礼包。下面是第 14 天的内容。我并不是一个机器学习(Machine Learning)、自然语言处理(Natural Text Processing，NLP)等的狂热者，但我总会想到一些需要用到它们的主意。我们今天在这篇博文中要实现的目标是：利用 Twitter 数据建立一个实时的职位搜索。每个单独的搜索...
复制链接

扫一扫