数据处理

最近在处理一些数据,需要对数据进行分词,计算共现矩阵等。

又重新找了一下之前用到的一个文献题录处理软件SATI,发现这个软件,有了新的版本:http://www.sati-online.cn 这个支持网络版的。

我在调试面版看了一下那个网站的js代码,没有看到对数据处理的js代码。最后上传代码试用了一下,实际上是把数据传到了服务器去处理了。

按网站上说的,新的在线版本的功能强大了许多。不过我没有完全去体验。

就我这几天在在数据处理上的经验,对于普通人,还有一些数据处理的需求:

1、简易的专业词汇分词

在分词上,用的较多的是jieba分词,但是在进行学术研究时,自然语言的分词,实际上是不够用的,还需要用专业词汇对文本进行分词。这就涉及到专业词汇的生成,专业词汇导入分词词库 

就我这两天的时间处理,这两步,是可以进行简化处理,让普通人都能用。

2、对非特定格式数据的自定义处理

对于很多特定格式,不是软件本身自身功能支持时,可以让用户自己定义规则进行处理。

这样就能够进行更通用地处理。

-------------

在计算矩阵时,sati网站上提供的论文,给出了很大的帮助。都提供了相应算法。

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值