阿里笔试--智能对话简化版之query指令槽位识别

头天贴主参加了阿里的笔试,第一道编程题就够做了。不是时间短,是脑子不够用。好了,不废话了,上干货。

题目介绍

现下互联网AI战争以智能音箱为切入口,敲开市场大门,抢夺市场用户。智能音箱需要语音交互,这就涉及到query指令的语义理解。例如:"我要看章子怡的一代宗师",这里边需要识别出来:动作“看”,“章子怡”,“一代宗师”。一般都会建立一个知识库:名词标注各种标签,这里边可能会有:章子怡是演员,一代宗师是电影。另外有的名词可能会有包含关系,例如,“周杰”,“周杰伦”,这个采用从左到右最长字符串优选匹配原则。

输入格式:

       第一行是简化版知识库:<标签1>_<名词1>|<名词2>|<名词3>;<标签2>_<名词2>|<名词4>|<名词5>;.....

       第二行是query指令。

输出格式:

       **** <名词1>/<标签1> **** <名词2>/<标签1>,<标签2> ****

范例:      

  输入:

      singer_周杰|周杰伦|刘德华|王力宏;song_冰雨|北京欢迎你|七里香;actor_周杰伦|孙俪

      请播放周杰伦的七里香给周杰伦周杰孙俪听周杰王力宏

  输出:

      请播放 周杰伦/singer,actor 的 七里香/song 给 周杰伦/singer,actor 周杰/singer 孙俪/actor 听 周杰/singer 王力宏/singer

思路

由于有从左到右优先的匹配的选择,所以考虑把输入的知识库转换成名词映射多个标签:{"<名词2>": ["<标签1>", "<标签2>"], ....},并且按key=<名词k>倒序;之后按排序后的key依次遍历匹配query,匹配成功,则替换query中名词为带编号的特殊标识(为了不让后边短的子字符串覆盖长的父字符串),并且记录这个名词,遍历完之后,得到一个有序的名词列表,最后遍历有序的名词列表,替换query中的特殊标识得到最终的输出结果。

代码

#!/usr/bin/env python
# -*-encoding=utf8-*-

import re

def match_process():
    row1 = raw_input()
    datas = {}
    entity_str_list = row1.split(";")
    for entity_str in entity_str_list:
        entity_name, entity_values = entity_str.split("_")
        entity_value_list = entity_values.split("|")
        for entity_value in entity_value_list:
            if datas.has_key(entity_value):
                datas[entity_value].append(entity_name)
            else:
                datas[entity_value] = [entity_name]
    entity_list = sorted(datas.keys(), reverse=True)
    row2 = raw_input()
    words = row2
    result = []
    tmp_words = words
    temp_entity = ""
    count = 1
    for entity_value in entity_list:
        if entity_value in tmp_words:
            if temp_entity == "":
                temp_entity = entity_value
            else:
                resulta.append(temp_entity)
                tmp_words = tmp_words.replace(temp_entity, "|&{}&|".format(count))
                count += 1
                temp_entity = entity_value
        else:
            if temp_entity != "":
                resulta.append(temp_entity)
                tmp_words = tmp_words.replace(temp_entity, "|&{}&|".format(count))
                count += 1
                temp_entity = ""
    if temp_entity != "":
        resulta.append(temp_entity)
        tmp_words = tmp_words.replace(temp_entity, "|&{}&|".format(count))

    final_list = sorted(result, reverse=True)
    for index in xrange(len(final_list)):
        st = ",".join(datas[final_list[index]])
        new_str = " " + final_list[index] + "/" + st + " "
        tmp_words = tmp_words.replace("|&{}&|".format(index + 1), new_str)

    print " ".join(tmp_words.split())


if __name__ == '__main__':
    match_process()

#singer_周杰|周杰伦|刘德华|王力宏;song_冰雨|北京欢迎你|七里香;actor_周杰伦|孙俪
# 请播放周杰伦的七里香给周杰伦周杰孙俪听周杰王力宏

运行截图:

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值