文本挖掘，我们想要得到什么

最新推荐文章于 2024-07-19 06:50:51 发布

Jetqvvf_what

最新推荐文章于 2024-07-19 06:50:51 发布

阅读量834

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Jetqvvf_what/article/details/51924788

版权

文本挖掘有较为固定的处理流程，数据获取、正文提取、分词、去停用词等等。但当我们跑完上述预处理流程，获得了可供挖掘的数据后，我们提出问题：这些数据能干什么？能提取什么知识什么模式？以我的某个论文为例，我利用爬虫获取了食品安全相关的网页，构成语料库，有效的样本量大概有几万个。然后呢，我做了食品安全事件报道的地区、时间、和类型的统计，跑了关联规挖掘，利用主题模型方法进行了隐含变量的提取。结果看上去很丰富，有图有表，有数据有算法，可我想说的是，挖掘不应当是先设置目的，再选择方法吗？怎么成了各种算法跑一跑，看看什么结果可用的过程？

当你面对一堆沙子，你会猜测：沙子里有金子，然后你去找这个金子，这是淘金，这是挖掘；当你连目的都没弄清楚，希望通过东一榔头西一棒槌的方法研究这堆沙子，最后的结论大概就是这届沙子不行吧。

回到问题，最初的一步应是解析出问题，比如现有算法的不足、模型描述不够细致。我希望通过改进主题模型，让模型更好的表示现有数据。

针对主题模型

1、我们获取到了食品安全相关的网页，宏观上讲是隶属于相同主题的，但细分下来也可分为食品、添加剂、健康、检测、化学、政策等多个facet。那每个文本的主题应当是它们的混合，这符合多项式分布。（但也可以这样理解：文本的关键特征应是涉及的食品，因此整个文本集应当是不同类型的食品安全文本的混合，每次）

第一层，是不是食品安全事件？

第二层，是哪种事件？

2、原始的方法完全自动（除了k值），但在细分的任务中完全的自动不切实际，可人工干预，通过添加先验知识（语义网、本体）的方法，可令模型理解哪些概念间是有强相关性的（如牛奶、酸奶，色素、苏丹红，细菌、腹泻），从而更加准确的打标签？

3、原始数据是有偏斜的。以百度搜索“苏丹红辣椒”返回的数据为例，大部分网页是“无效”的，是不存在隐含的标记信息的

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。