文本挖掘--将分词之后的文档转化为结构化的数据

将分词后的文本转化为数据结构化

1、使用关系型数据库

 对文本数据的结构化都是最具挑战的,大量的文本需要进行词频的统计、特征提取和降维。其实难点的根本是我们在做词频统计时,需要对所有的文本文件进行遍历,建立一个包含所有词的字典,如果文件集非常庞大、词比较多,这个词典就会很大,而且在第二次遍历文件进行词频统计的过程中,内存、寻址、计算的开销都是十分巨大的。 


它不需要很复杂的安装和配置,只要新建一个.txt 的文件,把文件后缀改为.db 就可以了,这个文件就可以作为SQLite 数据库的文件,而且所有的数据库管理文件都在里面

Java 有与 SQLite 连接的 ODBC。首先遍历所有文档,用 Map 对象建立一个包含所有词的字典,在 SQLite 中建立一个有这些词做字段的表。然后第二次遍历,对文本中的词频用 Map 对象进行统计,然后插入到数据库中。这样就从非结构化的文本转化为结构化的数据。
 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值