Python调用哈工大语言云（LTP）API进行自然语言处理

最新推荐文章于 2024-08-15 20:20:53 发布

noter16

最新推荐文章于 2024-08-15 20:20:53 发布

阅读量1.4k

点赞数

分类专栏： NLP Python

NLP 同时被 2 个专栏收录

43 篇文章 2 订阅

订阅专栏

Python

6 篇文章 0 订阅

订阅专栏

 http://46aae4d1e2371e4aa769798941cef698.devproxy.yunshipei.com/churximi/article/details/51173297
 
 哈工大语言云（语言技术平台云）是以哈工大社会计算与信息检索研究中心研发的“语言技术平台（LTP）” 为基础，提供高效精准的中文自然语言处理云服务。

官网：http://www.ltp-cloud.com/

使用python调用API实验，参考文档：http://www.ltp-cloud.com/document/

1.注册：免费注册一个帐号

注册网址：http://www.ltp-cloud.com/accounts/register/

注册后获取调用语言云服务的token以及api_key（新版API的调用认证方式）。目前新注册用户将获得每月20G的免费流量。

2.Python程序（注：32位 python 2.7.11，64位win7系统）

（1）简单测试句子

[python]view plaincopy 
    
print?
 # -*- coding: utf-8 -*-  
   
 """ 
 功能：哈工大语言云使用测试 
 时间：2016年4月9日 13:45:24 
 """  
   
 import urllib2  
   
 url_get_base = "http://api.ltp-cloud.com/analysis/?"  
 api_key = '********替换为自己的API_KEY********’      # 输入注册API_KEY  
   
 # 待分析的文本  
 text = "这是一个测试文本"  
   
 format0 = 'xml'                                       # 结果格式，有xml、json、conll、plain（不可改成大写）  
 pattern = 'ws'                                        # 指定分析模式，有ws、pos、ner、dp、sdp、srl和all  
   
 result = urllib2.urlopen("%sapi_key=%s&text=%s&format=%s&pattern=%s"  
                          % (url_get_base, api_key, text, format0, pattern))  
 content = result.read().strip()  
 print content  

（2）本地文本处理

[python]view plaincopy 
    
print?
 # -*- coding: utf-8 -*-  
   
 """ 
 功能：哈工大语言云使用测试 
 时间：2016年4月12日 19:56:11 
 """  
   
 import urllib2  
 import codecs  
   
   
 def ltp_cloud(par1):  
     url_get_base = "http://api.ltp-cloud.com/analysis/?"  
     api_key = '***********替换为自己的API_KEY***********'   # 用户注册语言云服务后获得的认证标识  
     format0 = 'plain'                                       # 结果格式，有xml、json、conll、plain（不可改成大写）  
     pattern = 'ws'                                          # 指定分析模式，有ws、pos、ner、dp、sdp、srl和all  
     result1 = urllib2.urlopen("%sapi_key=%s&text=%s&format=%s&pattern=%s"  
                               % (url_get_base, api_key, par1, format0, pattern))  
     return result1.read().strip()  
   
 f = open(r"C:\Users\lenovo\Desktop\test.txt", "r")                            # 待分析文本，已分句，每行一句。  
 savef = codecs.open(u"C:\\Users\\lenovo\\Desktop\\out1.txt", "a", "utf-8")    # 结果存储  
   
 linenum = 0  
 newline = ""  
 for line in f:  
     linenum += 1                                     # 记录处理行数  
     newline += line.strip().replace("#", "")         # 删除行末空白符、干扰符号，以免影响URI  
   
     if line[-1] != "\n":                             # 如果处理到文本最后一行  
         if " and " and " in " in newline:  
             print u"需要更改单词in"  
             newline = newline.replace(" in ", " i.n ")  
         print u"已处理到文本最后一行：", linenum  
         savef.write(ltp_cloud(newline).decode("utf-8") + "\n")  
   
     if len(newline) > 6000:                          # 让文本足够长时再提交处理，最大值在8000左右  
         if " and " and " in " in newline:            # 不能同时含有and和in两个词  
             print u"需要更改单词in"  
             newline = newline.replace(" in ", " i.n ")  
         print u"处理到第" + str(linenum) + u"行"  
         savef.write(ltp_cloud(newline).decode("utf-8") + "\n")  
         newline = ""  
   
 savef.close()  
 f.close()