在线使用-LTP-札记

语言技术平台 LTP 由哈工大社会计算与信息检索研究中心 研发,提供包括中文分词、词性标注、命名实体识别、依存句法分析、语义角色标注等丰富、高效、精准的自然语言处理技术。在2014年11月,哈工大联合科大讯飞公司推出“哈工大-讯飞语言云”,提供网络接入的语言云服务。

####在线使用 LTP-Cloud
官网API https://www.ltp-cloud.com/document/#api_rest_style
我主要是用到python进行调用,但是官方文档里面给的 demo 用的是 python2.x 写的,而现在我主要用的是 python3.x 了,所以我将原来的 demo 修改如下。
demo1

# -*- coding:utf8 -*-
import urllib.request
import urllib.parse

url_get_base = "http://api.ltp-cloud.com/analysis/?" # 注意结尾是'?'
args = { 
    'api_key' : 'YourApiKey', # 用户注册语言云服务后获得的认证标识
    'text' : '我是中国人。', # 待分析的文本
    'pattern' : 'ner', # 指定分析模式,ner(命名实体识别)
    'format' : 'plain' # 指定结果格式类型,plain(简洁文本格式)
}
result = urllib.request.urlopen(url_get_base+urllib.parse.urlencode(args)) # POST method
content = result.read().decode('utf8')
print(content)

运行结果为:

我 是 [中国]Ns 人 。

在 NER 中:机构名(Ni)、人名(Nh)、地名(Ns)

几点注意:
python3.x 的版本中 urlliburllib2 已经合并为一个 urllib
python2.x 中的 urllib.urlopen()urllib.urlencodepython3.x 中分别是 urllib.request.urlopen()urllib.parse.urlencode()
错误:urllib.error.HTTPError: HTTP Error 401: UNAUTHORIZED 的原因在于 url 一定要写对,可以参考该网址https://github.com/HIT-SCIR/ltp-cloud-api-tutorial/issues/3

demo2

# -*- coding:utf8 -*-
import urllib.request
import urllib.parse

text="我来自成都信息工程大学的计算机学院。"
text=str(text)
#text=urllib.quote(text)
text=urllib.parse.quote(text)

pattern = 'ner'
url = 'http://api.ltp-cloud.com/analysis/?' \
'api_key=YourApiKey' \
'&text='+text+\
'&pattern='+pattern+\
'&format=plain';
response = request.urlopen(url)
content = response.read().decode('utf-8')
print(content)

运行结果:

输入:我来自成都信息工程大学的计算机学院。
输出:我 来自 [成都 信息 工程 大学]Ni 的 计算机 学院 。

输入:我来自成都信息工程大学计算机学院。
输出:我 来自 [成都 信息 工程 大学 计算机 学院]Ni 。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
这是一个使用BERT-LTP-BILSTM-CRF模型进行命名实体识别的示例代码: ```python import torch from transformers import BertModel, BertTokenizer import torch.nn as nn import torch.optim as optim # 定义BERT-LTP-BILSTM-CRF模型 class BERT_LTP_BILSTM_CRF(nn.Module): def __init__(self, num_tags): super(BERT_LTP_BILSTM_CRF, self).__init__() self.bert = BertModel.from_pretrained("bert-base-chinese") self.dropout = nn.Dropout(0.1) self.lstm = nn.LSTM(self.bert.config.hidden_size, hidden_size=256, num_layers=2, batch_first=True, bidirectional=True) self.hidden2tag = nn.Linear(512, num_tags) self.crf = CRF(num_tags) def forward(self, input_ids, attention_mask): outputs = self.bert(input_ids=input_ids, attention_mask=attention_mask) sequence_output = outputs[0] sequence_output = self.dropout(sequence_output) lstm_output, _ = self.lstm(sequence_output) logits = self.hidden2tag(lstm_output) mask = attention_mask.bool() tags = self.crf.decode(logits, mask) return tags # 加载预训练的BERT模型和分词器 tokenizer = BertTokenizer.from_pretrained("bert-base-chinese") # 加载训练好的BERT-LTP-BILSTM-CRF模型 model = BERT_LTP_BILSTM_CRF(num_tags) # 定义损失函数和优化器 criterion = nn.CrossEntropyLoss() optimizer = optim.Adam(model.parameters(), lr=0.001) # 训练过程 for epoch in range(num_epochs): for input_ids, attention_mask, targets in dataloader: optimizer.zero_grad() outputs = model(input_ids, attention_mask) loss = criterion(outputs.view(-1, num_tags), targets.view(-1)) loss.backward() optimizer.step() # 在测试集上进行预测 with torch.no_grad(): for input_ids, attention_mask, _ in test_dataloader: outputs = model(input_ids, attention_mask) # 处理预测结果 ``` 这只是一个基本的示例,实际使用时需要根据具体的数据集和任务进行适当的调整和优化。同时,还需要实现CRF层的代码,并根据实际情况进行数据预处理和数据加载。希望对你有所帮助!
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

清风醉雨

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值