令人头疼的科技短语处理

      现在的搜索项目中使用了以前短语处理的研究成果,以之来分析标题并进行索引与搜索.但由于处理对象中包含大量科技新词,且部分短语也不太规范,使得测试过程中发现了较多问题.其中最头疼的是,100万条短语的测试语料中,有如下语料使得短语分析软件陷入死锁.呜呼悲惨~如何修正算法?

      院里的分词算法太简单,没有未登录词与新词识别的模块,这对短语处理软件造成的压力实在太大.


由一个充电电池和一个显示器组成的装置,在显示器上,电池的一个使用周期内出现的显示符号以一种加速方式在一种示范模式中显示
3-(2-(4-(4-(氨基-亚氨基-甲基)苯基)-4-甲基-2,5-二氧代咪唑烷-1-基)乙酰氨基)-3-苯丙酸乙酯的盐
用于制备N-(2-(R)-羟基-1-(S)-2,3-二氢化茚基)-2(R)-苯甲基-4(S)-羟基-5-(1-(4-(3-吡啶甲基)-2(S)-N′-(叔丁基甲酰氨基)哌嗪基))戊酰

胺(二化合物J或L-735,524)的还原性烷基化方法
(有机基)((σ-烯基)环戊二烯并二基)(硅烷桥连的)金属茂化合物
(R-(R,R)-2-(4-氟苯基)-β-δ-二羟基-5-(1-甲基-乙基)-3-苯基-4-[(苯基氨基)羰基]-1H-吡咯-1-庚酸半钙盐的III型结晶
2-(3,5-二氟苯基)-3-(4-(甲磺酰)苯基)-2-环戊烯-1-酮用作COX-2的一种抑制剂
N-(4-氧代-2-(1H-四唑-5-基)-4H-1-苯并吡喃-8-基)-4-(4-苯基丁氧基)苯甲酰胺的盐
制备1-苄基-4-((5,6-二甲氧基-1-二氢化茚酮)-2-基)甲基哌啶的方法和中间体
中华雪蛤精(活取的哈士蟆油(中国林蛙)及卵)制剂
一种在切削加工过程中用于润滑和冷却切削刃和/或工件的方法和装置及其在锯床上的应用
4,4’-亚甲基-双(异氰酸(3-氯-2,6-二烷基苯)酯)及其聚氨酯
从1,4-丁二醇脱除生成有色物质的方法及其在制备聚四亚甲基醚二醇(PTMEG)中的应用


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值