文本挖掘
文章平均质量分 87
拓端研究室
这个作者很懒,什么都没留下…
展开
-
文本挖掘:LDA模型对公号文章主题分析案例报告
原文链接:http://tecdat.cn/?p=2175/案例1早在1995年比尔·盖茨就在《未来之路》里说过:未来没有配套智能家居的房子,就是毛坯房。当你还在纠结“人工智能”安利值不值得吃,最近不少朋友家里又出现智能门锁,相比传统门锁来说,究竟能有多智能?早在1995年比尔·盖茨就在《未来之路》里说过:未来没有配套智能家居的房子,就是毛坯房。现在人们生活越来......原创 2019-07-02 16:32:41 · 5469 阅读 · 2 评论 -
文本挖掘:twitter推特LDA主题情感分析
原文链接:http://tecdat.cn/?p=1506“高度信息化的今天,社交媒体向我们提供直接认识外界的一个窗口,决定着大家对一个地区的认知,像是一双对地区形象“塑型”的“看不见”的手。▼根据这个背景,tecdat对素有“塞上江南”之称的宁夏热门推文(hot tweet,推特中的热门推文是指被转推或被收藏过的推文,相比普通推文影响力更大)进行了分析。研究人员...原创 2019-07-02 16:43:36 · 10606 阅读 · 0 评论 -
用R语言进行网站评论文本挖掘聚类
原文:http://tecdat.cn/?p=3994对于非结构化的网站中文评论信息,r的中文词频包可能是用来挖掘其潜在信息的好工具,要分析文本内容,最常见的分析方法是提取文本中的词语,并统计频率。频率能反映词语在文本中的重要性,一般越重要的词语,在文本中出现的次数就会越多。词语提取后,还可以做成词云,让词语的频率属性可视化,更加直观清晰。比如对于如下的网站评论信息:......原创 2019-07-19 18:05:11 · 1677 阅读 · 0 评论 -
用于NLP的Python:使用Keras进行深度学习文本生成
原文链接:http://tecdat.cn/?p=8448文本生成是NLP的最新应用程序之一。深度学习技术已用于各种文本生成任务,例如写作诗歌,生成电影脚本甚至创作音乐。但是,在本文中,我们将看到一个非常简单的文本生成示例,其中给定输入的单词字符串,我们将预测下一个单词。我们将使用莎士比亚著名小说《麦克白》的原始文本,并根据给定的一系列输入单词来预测下一个单词。完成本文之后,您将能......原创 2019-11-06 15:15:21 · 1178 阅读 · 0 评论 -
python使用MongoDB,Seaborn和Matplotlib文本分析和可视化API数据
原文链接:http://tecdat.cn/?p=8450介绍软件开发职位通常需要的技能是NoSQL数据库(包括MongoDB)的经验。本教程将探索使用API收集数据,将其存储在MongoDB数据库中以及对数据进行一些分析。我们将使用什么API?我们将使用的API是GameSpot的API。GameSpot是网络上最大的视频游戏评论网站之一,可以在此处访问其API......原创 2019-11-06 16:02:43 · 730 阅读 · 0 评论 -
R语言NLP案例:LDA主题文本挖掘优惠券推荐网站数据
原文链接:http://blog.sina.com.cn/s/blog_14154cb430102x1wb.html介绍Groupon是一个优惠券推荐服务,您可以免费注册Groupon,并且Groupon每天都会向您发送包含该地区当天交易的电子邮件。如果您喜欢这笔交易,那么您可以立即从Groupon购买,并在餐馆/商店兑换。数据这些数据是从Groupon网站的纽约市区域获得的......原创 2019-11-08 15:30:26 · 809 阅读 · 0 评论 -
Python使用神经网络进行简单文本分类
原文链接:http://tecdat.cn/?p=8613深度学习无处不在。在本文中,我们将使用Keras进行文本分类。准备数据集出于演示目的,我们将使用20个新闻组数据集。数据分为20个类别,我们的工作是预测这些类别。如下所示:通常,对于深度学习,我们将训练和测试数据分开。导入所需的软件包......原创 2019-11-15 16:18:52 · 1832 阅读 · 0 评论 -
用于NLP的Python:使用Keras的多标签文本LSTM神经网络分类
原文链接:http://tecdat.cn/?p=8640介绍在本文中,我们将看到如何开发具有多个输出的文本分类模型。我们将开发一个文本分类模型,该模型可分析文本注释并预测与该注释关联的多个标签。多标签分类问题实际上是多个输出模型的子集。在本文结尾,您将能够对数据执行多标签文本分类。数据集数据集包含来自Wikipedia对话页编辑的评论。 评论可以属于所有这些类别......原创 2019-11-18 16:54:23 · 3216 阅读 · 2 评论 -
R语言对NASA元数据进行文本挖掘的主题建模分析
原文链接:http://tecdat.cn/?p=9424目录什么是主题建模?获取和整理NASA元数据制作DocumentTermMatrixLDA主题建模探索建模每个文档都属于哪个主题?将主题建模连接到关键字NASA有32,000多个数据集,并且NASA有兴趣了解这些数据集之间的联系,以及与NASA以外其他政府组织中其他重要数据集的联系。有关NASA数据集的元......原创 2019-12-13 16:59:00 · 612 阅读 · 0 评论 -
R语言文本挖掘使用tf-idf分析NASA元数据的关键字
原文链接:http://tecdat.cn/?p=9448目录获取和整理NASA元数据计算文字的tf-idf连接关键字和描述可视化结果NASA有32,000多个数据集,并且NASA有兴趣了解这些数据集之间的联系,以及与NASA以外其他政府组织中其他重要数据集的联系。有关NASA数据集的元数据可以JSON格式在线获得。让我们使用tf-idf在描述字段中找到重要的单词......原创 2019-12-13 17:58:04 · 783 阅读 · 0 评论 -
scrapy爬虫框架和selenium的使用:对优惠券推荐网站数据LDA文本挖掘
介绍每个人都喜欢省钱。我们都试图充分利用我们的资金,有时候这是最简单的事情,可以造成最大的不同。长期以来,优惠券一直被认为是剪纸,并被带到超市拿到折扣。任何人都知道剪报优惠券可能是乏味和耗时的,但使用优惠券从未如此简单,这要归功于Groupon。Groupon是一个优惠券推荐服务,可以在您附近的餐馆和商店广播电子优惠券。其中一些优惠券可能非常重要,特别是在计划小组活动时,因为折扣可以高达60%。您...原创 2020-04-20 11:34:41 · 521 阅读 · 0 评论 -
R语言对推特twitter数据进行文本情感分析
原文链接:http://tecdat.cn/?p=4012我们以R语言抓取的推特数据为例,对数据进行文本挖掘,进一步进行情感分析,从而得到很多有趣的信息。原创 2020-12-10 18:46:55 · 2104 阅读 · 1 评论 -
拓端tecdat|R语言文本挖掘NASA数据网络分析,tf-idf和主题建模
原文链接:http://tecdat.cn/?p=6763NASA托管和/或维护了超过32,000个数据集;这些数据集涵盖了从地球科学到航空航天工程到NASA本身管理的主题。我们可以使用这些数据集的元数据来理解它们之间的联系。1NASA如何组织数据首先,让我们下载JSON文件,并查看元数据中存储的名称。 metadata <- fromJSON("http......原创 2021-01-18 12:57:59 · 2888 阅读 · 5 评论 -
WEKA文本挖掘分析垃圾邮件分类模型
原文链接:http://tecdat.cn/?p=4027业务背景电子邮件的应用变的十分广泛,它给人们的生活带来了极大的方便,然而,作为其发展的副产品——垃圾邮件,却给广大用户、网络管理员和ISP(Internet服务提供者)带来了大量的麻烦。垃圾邮件问题日益严重,受到研究人员的广泛关注。 垃圾邮件通常是指未经用户许可,但却被强行塞入用户邮箱的电子邮件。对于采用群发等技术的...原创 2019-07-04 15:27:01 · 2087 阅读 · 0 评论 -
【视频】Rapidminer关联规则和文本挖掘模型对评论数据进行分析
描述关联规则是if / then语句,可帮助发现看似无关的数据之间的关系。关联规则的一个示例是“如果客户购买鸡蛋,那么他有80%的可能性也购买牛奶”。关联规则包含两个部分,一个前提(if)和一个后果(then)。前项是在数据中找到的一个或多个项目。结果就是与前项组合在一起的项(或项集)。关联规则是通过分析频繁使用的“如果/然后”模式的数据并使用条件 支持 和 置信度 来确定最重要的关系来创建的。支持表示项目在数据库中出现的频率。置信度表示发现if / then语句为真的次数。使用FP-Gro....原创 2020-08-26 18:56:57 · 1013 阅读 · 0 评论 -
用Rapidminer做文本挖掘的应用:情感分析
情感分析或观点挖掘是文本分析的一种应用,用于识别和提取源材料中的主观信息。原创 2020-08-10 15:44:56 · 1585 阅读 · 0 评论 -
R语言文本挖掘、情感分析和可视化哈利波特小说文本数据
一旦我们清理了我们的文本并进行了一些基本的词频分析,下一步就是了解文本中的观点或情感。这被认为是情感分析,本教程将引导你通过一个简单的方法来进行情感分析。简而言之本教程是对情感分析的一个介绍。本教程建立在tidy text教程的基础上,所以如果你没有读过该教程,我建议你从那里开始。在本教程中,我包括以下内容。复制的要求:重现本教程中的分析需要什么? 情感数据集:用来对情感进行评分的主要数据集 基本情感分析:执行基本的情感分析 比较情感:比较情感库中的情感差异 常见的情绪词:找出最常见的.原创 2021-07-06 15:05:24 · 1575 阅读 · 0 评论 -
拓端tecdat|自然语言处理NLP:主题LDA、情感分析疫情下的新闻文本数据
原文链接:http://tecdat.cn/?p=11583新冠肺炎的爆发让今年的春节与往常不同。与此同时,新闻记录下了这场疫情发展的时间轴。▼为此我们分析了疫情相关的新闻内容、发布时期以及发布内容的主题和情感倾向这些方面的数据,希望通过这些数据,能对这场疫情有更多的了解。新闻对疫情相关主题的情感倾向通过对疫情相关的新闻进行主题分析和情感分析,我们可以得到每个主题的关键词以及情感分布。图表1症状检测主题的新闻内容表达出最多积极情感,该话题下讨论的是医院中检测患者的症状,.原创 2021-01-08 14:15:15 · 1941 阅读 · 3 评论 -
拓端tecdat|R语言自然语言处理(NLP):情感分析新闻文本数据
本文对R中的文本内容进行情感分析。此实现利用了各种现有的字典,此外,还可以创建自定义词典。自定义词典使用LASSO正则化作为一种统计方法来选择相关词语。最后,评估比较所有方法。...原创 2021-01-08 12:14:30 · 3501 阅读 · 11 评论