![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
文本数据挖掘
文章平均质量分 91
文本数据挖掘
Dawn_www
这个作者很懒,什么都没留下…
展开
-
IR:检索模型
# 信息检索模型 信息检索的主题之一是定义一个无须工程师提炼规则的模型。这样的检索模型(retrieval model)应该尽可能准确地捕获相关性的概念。给定一组搜索结果,检索模型将对它们进行排序:结果越相关,分数越高。# TF-IDF 一种度量文档相对于查询的重要性的常见方法,是利用基于查询和文档中的词项计算出的统计数据。这种检索模型称为信息检索的统计模型(statistical models for information retrieval) # 示例 ...原创 2021-09-03 00:23:54 · 1493 阅读 · 0 评论 -
文本数据挖掘一般步骤
转载自潇一:简要的谈谈文本数据挖掘的一般步骤原文 一、获取文本 一般来说网络文本的获取,主要是网页的形式。我们要把网络中的文本获取形成一个文本数据库(数据集)。利用一个爬虫(这是另外一个知识点),抓取到网络中的信息。爬取的策略有广度和深度爬取;根据用户的需求,爬虫可以有主题爬虫和通用爬虫之分,主题爬取主要是在相关站点爬取或者爬取相关主题的文本,而通用爬虫则一般对此...转载 2020-01-24 11:06:52 · 4191 阅读 · 0 评论 -
文本数据挖掘:TextRank模型
简介 TextRank基本思想来源于Google的PageRank算法。这种算法是1997年,Google创始人拉里.佩奇和谢尔盖.布林在构建早期的搜索系统原型时提出的一种链接分析算法,基本思想有两条: 1)链接数量。一个网页被越多的其他网页链接,说明这个网页越重要. 2)链接质量。一个网页被一个越高权值的网页链接,也能表明这个网页越重要. 与TF-IDF...原创 2020-01-10 22:42:37 · 2141 阅读 · 0 评论