注:转载请注明出处twenz。欢迎大家交流探讨,指出错误,有什么好的建议方法也请给我留言。
利用Stanford Parser进行中文行为抽取(Action mining)
问题
所谓的行为抽取就是从开源文本中获取关于给定的某个人/组织的行为,主要包括主语、谓语和宾语。其中主语是给定的一些词表示了需要抽取的信息对象(人、组织或团体)。谓语和宾语则表示了行为。
例如,我们要抽取关于“塔利班”的行为,则给定句子“塔利班制造了这起爆炸。”的抽取结果为“塔利班:制造爆炸”。如果塔利班还有其他的别称(比如基地组织)或者我们有关于塔利班里面重要成员的可以代表塔利班行为的人等,则应把它们作为主语的行为也一并抽取出。
方法
这种关于行为抽取的显然是在句子层面上的工作,用统计机器学习方法可能效果不会很好(个人感觉)。
1.选择数据(数据源,如新闻等)
2.划分句子
3.筛选相关句子(找出含有识别对象的句子,直接匹配)
4.分词(把那些目标对象的词语加入到词典中,采用ICTCLAS)
5.语法分析(Stanford Parser)
6.抽取行为 (查找规律,利用规则匹配等方法,