语意分析,比较单词相似度,英文单词切词法,combine组合数学算法是关键。

比较单词相似度,必须首先切词,英文单词切词法,combine排列组合的“组合”数学算法是关键。

下面代码给出原子的一种思路:比如输入单词“spide”,输出所有可能用来和其他单词比较的原子,由于单词长度是5,匹配度小于60%的没意义,所以原子最小长度是3。

代码是从C语言算法改过来的,同样代码也可以修改成任何编程语言。


ide
pde
sde
pie
sie
spe
pid
sid
spd
spi
pide
side
spde
spie
spid
spide

这里用到了Combine 输出全部组合,Combine 5,3就是得到在5个里选3个的全部可能选法。

<SCRIPT LANGUAGE="vbScript">

str="spide"
''创建全局字典对象,用来存储所有得到的原子结果
Set dict=CreateObject("Scripting.Dictionary")

Dim  a(100)
strLength=Len(str)
''原子
atomyLength=round(strLength*0.6)

For x=atomyLength To strLength
 a(0)=x
 ''计算5选3,5选4,5选5组合
 combine strLength,x
next
 


sub combine(m,  k)
''计算组合在m里面选k个元素的全部组合情况,添加到字典对象里
 i=0
 j=0
 For i=m To k Step -1
  a(k)=i
  if (k>1)  then
   combine i-1,k-1 
  else
   tempStr=""
   for  j=1 To a(0) 
    tempStr=tempStr &  Mid(str,a(j),1)
   Next
   ''排除重复的,加到字典里
   If Not dict. Exists(tempStr) then  dict.add tempStr,Len(tempStr)
  End if
 next
End sub

Main()

Sub Main
 ''输出显示结果
 For i=0 To dict.count-1
  Document.write  dict.keys()(i) & "<br/>"
 next
End sub
</SCRIPT> 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 4
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值