文本挖掘--将分词之后的文档转化为结构化的数据

最新推荐文章于 2024-08-23 05:05:39 发布

红豆和绿豆

最新推荐文章于 2024-08-23 05:05:39 发布

阅读量7.3k

点赞数

分类专栏：文本挖掘文章标签：文本挖掘

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u011955252/article/details/50748899

版权

文本挖掘专栏收录该内容

46 篇文章 3 订阅

订阅专栏

将分词后的文本转化为数据结构化

1、使用关系型数据库

对文本数据的结构化都是最具挑战的，大量的文本需要进行词频的统计、特征提取和降维。其实难点的根本是我们在做词频统计时，需要对所有的文本文件进行遍历，建立一个包含所有词的字典，如果文件集非常庞大、词比较多，这个词典就会很大，而且在第二次遍历文件进行词频统计的过程中，内存、寻址、计算的开销都是十分巨大的。

它不需要很复杂的安装和配置，只要新建一个.txt 的文件，把文件后缀改为.db 就可以了，这个文件就可以作为SQLite 数据库的文件，而且所有的数据库管理文件都在里面

Java 有与 SQLite 连接的 ODBC。首先遍历所有文档，用 Map 对象建立一个包含所有词的字典，在 SQLite 中建立一个有这些词做字段的表。然后第二次遍历，对文本中的词频用 Map 对象进行统计，然后插入到数据库中。这样就从非结构化的文本转化为结构化的数据。

红豆和绿豆

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。