最近在处理一些数据,需要对数据进行分词,计算共现矩阵等。
又重新找了一下之前用到的一个文献题录处理软件SATI,发现这个软件,有了新的版本:http://www.sati-online.cn 这个支持网络版的。
我在调试面版看了一下那个网站的js代码,没有看到对数据处理的js代码。最后上传代码试用了一下,实际上是把数据传到了服务器去处理了。
按网站上说的,新的在线版本的功能强大了许多。不过我没有完全去体验。
就我这几天在在数据处理上的经验,对于普通人,还有一些数据处理的需求:
1、简易的专业词汇分词
在分词上,用的较多的是jieba分词,但是在进行学术研究时,自然语言的分词,实际上是不够用的,还需要用专业词汇对文本进行分词。这就涉及到专业词汇的生成,专业词汇导入分词词库。
就我这两天的时间处理,这两步,是可以进行简化处理,让普通人都能用。
2、对非特定格式数据的自定义处理
对于很多特定格式,不是软件本身自身功能支持时,可以让用户自己定义规则进行处理。
这样就能够进行更通用地处理。
-------------
在计算矩阵时,sati网站上提供的论文,给出了很大的帮助。都提供了相应算法。