非结构化文件分析的三种场景

最新推荐文章于 2024-04-07 17:57:01 发布

鸿浪@大数据

最新推荐文章于 2024-04-07 17:57:01 发布

阅读量2.4k

点赞数

分类专栏：产品规划文章标签：语义分析

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42893650/article/details/89673439

版权

产品规划专栏收录该内容

17 篇文章 0 订阅

订阅专栏

对pdf（或其它非结构化文件）的分析场景可以归纳为以下几种：

全文检索。基于solr或ES搜索引擎组件，对文件内容建立索引，通过关键字对文件进行检索；
结构化分析。把pdf文件内容转换为文本，提取内容中的关键属性，比如，标题、来源等，建立表结构模型支持后续的统计分析。下面是项目中所做的一个案例：
语义分析。在上面结构化分析的基础上更进一步，对其内容进行分词、词性标注、命名实体识别等处理，从而可以支持舆情分析、文档主题发现等功能；

上面第2和第3个场景的区别主要是对文件的处理深度不同，前者只需要对文件做简单的结构化解析即可，不需要用到更多的语义分析方面的技术，可以满足一般的分析需求；后者则需要更多的分词、词性、热词等技术，但能支持的分析场景会更丰富，也是非结构化分析的最终目标。

鸿浪@大数据

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
非结构化文件分析的三种场景

对pdf（或其它非结构化文件）的分析场景可以归纳为以下几种：全文检索。基于solr或ES搜索引擎组件，对文件内容建立索引，通过关键字对文件进行检索；结构化分析。把pdf文件内容转换为文本，提取内容中的关键属性，比如，标题、来源等，建立表结构模型支持后续的统计分析。下面是项目中所做的一个案例：语义分析。在上面结构化分析的基础上更进一步，对其内容进行分词、词性标注、命名实体识别等处...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。