项目介绍:基于英文维基百科的自然语言处理工作,计划实现借助维基百科作为语料库,学习概念间相似度,应用在其他文本分析中。
项目时间:2013-10 至今
项目职责:本人主要负责从维基离线数据库中提取出概念间链接关系,同时计算出概念的初度以及入读,用概念的锚文本来表示这个概念。第二个工作是对上述得到的语义向量进行修改,利用tf-idf对向量进行赋值。
采用python,语言,用到了nltk,mysqldb等库。
python与java语言的区别:
本质区别是python 脚本语言,属于解释型语言,而java属于编译型语言。
JAVA 里的块用大括号对包括,Python 以冒号 + 四个空格缩进表示。
JAVA 的类型要声明,Python 的类型不需要。
JAVA 基本上是类/结构操作,也就是面向对象处理,Python 可以以独立的函数模块来处理逻辑而不需要放到类中。
JAVA 每行语句以分号结束,Python 可以不写分号。
JAVA 的类型要声明,Python 的类型不需要。
JAVA 基本上是类/结构操作,也就是面向对象处理,Python 可以以独立的函数模块来处理逻辑而不需要放到类中。
JAVA 每行语句以分号结束,Python 可以不写分号。
技术难点:
离线数据库噪声处理
解决方法:
采用正则匹配,去掉文档非正文部分。然后在利用正则匹配匹配出里面的概念来。
sql语句中存单引号问题,对每一个单引号,加多一个引号。
收获: