search花絮之语义处理

 

语义处理是自然语言处理前沿的热点,其关键作用正逐渐成为学科领域的共识,而我们的中文信息处理强项也在于语义处理,所以很自然就想把这一优势具体体现到搜索项目中来——但毫无疑问这是一个摸索的过程。

最初我负责标题分析的研究,曾随机抽取了一些标题示例,例如:

 

“移动存储设备”的例子

[[+[移动存储设备][读写识别设备]][安全[认证方法]]]

[[改变移动存储设备[+功能或状态]]的方法]

[[一种实现随身[+电脑与计算机]间交换数据]的方法]

[[基于USB移动存储技术][+[便携式信号[发生方法]]及系统]]

[[可移动]存储装置]

[数字音乐播放装置]

1.       “医药”的例子

[化合物[+[制取方法]及其应用]]

[[[^[[从低纯铝制备][铝溶胶]]]脱除杂质]的方法]

[改进[[抗炎]组合物][制备方法]]

[三唑杀[真菌剂]]

[薄层电池]

[流体杂质分离器]

2.       “农业”的例子

[[制取三唑醇]的方法]

[引起生物[+[效应[搪瓷板]]及其[制造方法]]]

[[一种深层培养菌丝体制作蘑菇栽培种]的工艺]

[微型多功能人力套播机]

3.       其他

[一种[+[羊腿]、[羊排]或猪排][制作方法]]

[[一种用于高[折光率]镜片]的[[可聚合]组合物]]

 

这些例子中有一些标注符号,是当时(去年8月份)短语处理研究的中间结果。而这次标题分析就是在这个基础上,分析语义的结构及其在检索中的应用。

随意看几个例子,如“[数字音乐播放装置]”,这是一种装置,是用来“播放”“音乐(数字音乐)”的,一目了然的信息也就是其语义结构(从短语结构变换迩来相对容易),而无论是“播放磁带音乐的设备”,还是“数字音乐的处理装置”,都是具有一定相似性的。再如,“[化合物[+[制取方法]及其应用]]”,既包括方法又包括应用,但其核心特征就是“制取化合物”。这种语义结构从其短语结构中进行变换获取时具有一定难度。但对于任意具有这种特征的标题中,相似度应该都比较高。

所以一般的说,研究语义处理在检索中的应用,自然而然就面对两个问题:

 

u       语义结构的定义与获取

u       语义结构对检索的影响参数的量化

 

对这两个问题进行回答,并在实践中进行评测检验,其意义是十分重大的;也是在检索中做语义处理的根本入口。

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值