python关键字库名叫什么_使用KEA或其他python库提取关键字

我现在为一个关键字提取项目工作。基本上,我使用python来实现这一点。

让我先谈谈我的项目是什么。

我在这个项目中的目标是从一段或一个网页中找出关键词(关键短语不太可取)。在

我假设我可以从一个网站抓取一个相当好的内容结构。在

假设我有很多段落,所有段落都来自同一个行业。下面是一个示例段落:About us

We are the greatest bank in the world, which provide the most safe service in the world. Our bank is providing FX, security trading and saving services. Over the past few years, we successfully build up a reliable reputation.

其次,我将这些段落中的关键词标注在其他段落中,建立了一个有监督的学习模型。在

最后,我尝试使用KEA,这是一个JAVA程序(我使用python来调用JAVA程序)来建立一个模型。在

然而,结果却糟透了。准确率只有15%左右。这意味着,如果我给我的KEA程序一个段落,KEA将输出10个关键字给我,而且几乎85%的关键字实际上不是一个理想的关键字。在

这里我有几个问题:这个问题是关于KEA的准备材料。培训数据的.txt文件中是否应该包含关键字?或者我应该把它从段落中删除?因为这是关于KEA自述文件中的困惑:

'从这些文档中删除作者指定的关键短语

把它们放在单独的“.key”文件中。例如,如果

您的文档文件名为doc1.txt,请移动关键短语

到一个名为“doc1.key”的新文件中。重要的是

你把每个关键字放在这个文件的一行在

所以假设我有最后一个示例段落作为我的培训数据,并假设“安全”和“可靠”。我应该把这两个字从这段删去吗??在由于KEA可以应用SKOS词汇表,这是否意味着如果我在某一类主题(比如金融行业)中使用适当的SKOS词汇表,我的模型结果会更好吗?如果是,我在哪里可以找到这些SKOS词汇表,例如,我想要关于金融行业的SKOS词汇表。

在这个主题中,python中是否有强大的建议库?有人能和我分享吗?

非常感谢。在

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值