维基百科自然语言处理总结

该项目从2013年10月开始,利用英文维基百科作为语料库,提取概念间链接关系并计算概念的度和入度,通过锚文本表示概念,并使用tf-idf对语义向量赋值。主要编程语言为Python,借助nltk和mysqldb等库。技术难点包括离线数据库噪声处理和SQL语句中的单引号问题,通过正则表达式和额外引号解决。
摘要由CSDN通过智能技术生成
项目介绍:基于英文维基百科的自然语言处理工作,计划实现借助维基百科作为语料库,学习概念间相似度,应用在其他文本分析中。
项目时间:2013-10 至今
项目职责:本人主要负责从维基离线数据库中提取出概念间链接关系,同时计算出概念的初度以及入读,用概念的锚文本来表示这个概念。第二个工作是对上述得到的语义向量进行修改,利用tf-idf对向量进行赋值。
采用python,语言,用到了nltk,mysqldb等库。
python与java语言的区别:
本质区别是python 脚本语言,属于解释型语言,而java属于编译型语言。
JAVA 里的块用大括号对包括,Python 以冒号 + 四个空格缩进表示。
JAVA 的类型要声明,Python 的类型不需要。
JAVA 基本上是类/结构操作,也就是面向对象处理,Python 可以以独立的函数模块来处理逻辑而不需要放到类中。
JAVA 每行语句以分号结束,Python 可以不写分号。
技术难点:
离线数据库噪声处理
解决方法:
采用正则匹配,去掉文档非正文部分。然后在利用正则匹配匹配出里面的概念来。
sql语句中存单引号问题,对每一个单引号,加多一个引号。

收获:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值