java存储非结构化数据_关于学习非结构化数据转换为结构化数据的学习心得

---恢复内容开始---

参考文献:

万里鹏. 非结构化到结构化数据转换的研究与实现[D]. 西南交通大学, 2013.

文中提到了一种方法:非结构化数据(通过提取有关的元数据)——>xml文档(根据约束条件)——>结构化数据

通过这样的方式来使得数据从非结构化到结构化。

如何提取有关的元数据呢?

一般采用了文件模板的方式,即把文件分为(1)文件字段名(2)字段类型(3)索引 以及更多的类型,这里的类型就依据所需要处理的属性具体划分,而文件模板的主要作用就是用于创建数据表,从而使得其原始数据能够结构更加清晰。

文件模板存放于系统模板库中,这样的话能够重复利用。

文中提到的比较多的文件类型是PDF、Office文档、文本数据以及HTML网页。都是不具有通用性,只能根据某一种文件的某一个特征进行分析、转换为xml。

(1)Word文档用到了Jacob技术

(2)Excel文档用到了Java Excel API技术

(3)HTML网页需要用到Webharvest、htmlparser或者htmlclean

(4)图片、图像、音频、视频这类非文本的以二进制形式存储的文件,则不能转换为xml文档

所提到的这些技术能够支持非结构化数据到xml文档的转换。其实也可以换一种思路理解,xml是一个承载数据转化的中间过程,最终的数据是以结构化的形式存储在关系数据库中的。

1.首先,先要了解一下jacob.官方的解释是JavaCOM Bridge,即Java和com组件间的桥梁.com一般表现为dll或exe等二进制文件,像我们一会将用到的jacob-1.14.3-x64.dll文件。

2.通过maven的pom.xml文件依赖第三方J

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值