大数据部落

数据分析

关注

文章平均质量分 83

关注数：文章数：207 文章阅读量：1284324 文章收藏量：4058

作者: 拓端研究室

这个作者很懒，什么都没留下…

展开

游记数据感知旅游目的地形象|文本挖掘：主题模型（LDA）及R语言实现分析游记数据

越来越多的人愿意精神消费。旅游不仅可以提升人们对外地环境和外地人文的认知，也可以放松身心、愉悦心情，是一种受欢迎的精神消费。▼随着国内近些年来互联网的发展，越来越多的人开始线上消费，消费感受的推荐成为了潮流。在各个旅游平台上，越来越多的人愿意参与旅游目的地游玩感受的分享。本文试图从马蜂窝旅游官网上就新疆这个旅游目的地游记进行感知分析。游记表现出多元复杂的情感通过情感分析（也称为意见挖掘），用文本挖掘和计算.........

原创 2020-09-02 12:34:51 · 1765 阅读 · 0 评论
R语言如何解决线性混合模型中畸形拟合(Singular fit)的问题

在这里，我们观察到奇异拟合，因为截距和x随机效应之间的相关性是-1。处理该模型的一种方法是删除高阶随机效应（例如X：ConditionB），并查看在测试奇异性时是否有区别另一种是使用贝叶斯方法，例如blme软件包以避免奇异性。...

原创 2020-08-05 11:26:50 · 3165 阅读 · 0 评论
用于NLP的Python：使用Keras的多标签文本LSTM神经网络分类

原文链接：http://tecdat.cn/?p=8640介绍在本文中，我们将看到如何开发具有多个输出的文本分类模型。我们将开发一个文本分类模型，该模型可分析文本注释并预测与该注释关联的多个标签。多标签分类问题实际上是多个输出模型的子集。在本文结尾，您将能够对数据执行多标签文本分类。数据集数据集包含来自Wikipedia对话页编辑的评论。评论可以属于所有这些类别......

原创 2019-11-18 16:54:23 · 3200 阅读 · 2 评论
时间序列建模三部曲

原文链接：http://tecdat.cn/?p=5202与大多数高级分析解决方案不同，时间序列建模是一种低成本解决方案，可提供强大的洞察力。本文将介绍构建质量时间序列模型的三个基本步骤：使数据静止不动，选择正确的模型并评估模型的准确性。这篇文章中的例子使用了一家主要汽车营销公司的历史页面浏览数据。步骤1：时间序列涉及使用按时间间隔（分钟，小时，天，周等）进行索引的数据。由于...

原创 2019-06-21 15:44:41 · 4113 阅读 · 0 评论
在R语言中实现Logistic逻辑回归

原文链接 http://tecdat.cn/?p=2652 逻辑回归是拟合回归曲线的方法，当y是分类变量时，y = f（x）。典型的使用这种模式被预测Ÿ给定一组预测的X。预测因子可以是连续的，分类的或两者的混合。

原创 2019-06-17 17:12:48 · 38535 阅读 · 0 评论
R语言离群值处理分析

参考：http://tecdat.cn/?p=3415数据中的异常值可能会使预测失真并影响准确性，尤其是在回归模型中，如果您没有正确检测并处理它们，那么它们会影响精度为什么异常值检测很重要？在真实观察中处理或改变异常值/极端值不是标准操作程序。但是，了解它们对预测模型的影响至关重要。留待调查人员判断是否需要治疗异常值以及如何去做。那么，为什么识别极端值很重要？因为，它可以大...

原创 2019-06-21 14:06:41 · 4936 阅读 · 0 评论
虎扑论坛数据分析

原文链接：http://tecdat.cn/?p=2018论坛为用户提供了相同的业余爱好，互动和交流的广阔平台，以及由此产生的庞大数据和复杂的用户交互场景也包含有价值的信息，本文关于虎扑论坛的帖子，个人信息分析，探讨虎扑论坛的用户是什么是什么特点？▼tecdat研究人员分析了2018年1月Tiger Walk论坛每个部分的所有帖子，使用数据探索用户行为并概述用户偏好。以下是虎扑的官......

原创 2019-06-18 16:46:31 · 7918 阅读 · 0 评论
R语言CRAN软件包Meta分析

原文链接：http://tecdat.cn/?p=3050我一直在寻找各种方法来查找有关R包的信息，但我最近才了解CRAN_package_db()了基本tools包中的函数。如果一位同事没有向我指出，我确信我永远不会自己找到它。当被调用时，这个函数发送到由环境变量指定的CRAN镜像，R_CRAN_WEB并返回一个数据帧，其中包含有关CRAN上当前每个包的大量信息。它是元数据的宝库......

原创 2019-06-18 15:09:02 · 2428 阅读 · 0 评论
R语言基于ARMA-GARCH过程的VaR拟合和预测

原文链接http://tecdat.cn/?p=2657本文展示了如何基于基础ARMA-GARCH过程（当然这也涉及广义上的QRM）来拟合和预测风险价值（Value-at-Risk，VaR）。library(qrmtools)# for qq_plot()library(rugarch)模拟数据我们考虑具有t的ARMA（1,1）-GARCH（1,1）过程.........

原创 2019-06-20 17:58:48 · 13219 阅读 · 0 评论
R语言代写岭回归ridge regression分析租房价格报告

原文链接：http://tecdat.cn/?p=6173住房趋势首先，这里是伯克利价格的一般直方图。这是基于从伯克利的租金收集委员会收集的数据，从中我可以获取伯克利目前被占用的9143套公寓的租赁信息，并从2014年开始租赁。这是每间客房的价格，平均为公寓楼数量由于租金管制，我认为每个房间的每栋房租都非常相似。正如我们可以清楚地看到的那样，这是一个标准的正态分布形状，...

原创 2019-06-21 15:48:31 · 895 阅读 · 0 评论
R语言使用马尔可夫链对营销中的渠道归因建模

原文链接：http://tecdat.cn/?p=5383介绍在这篇文章中，我们看看什么是渠道归因，以及它如何与马尔可夫链的概念联系起来。我们还将通过一个电子商务公司的案例研究来理解这个概念在理论上和实践上如何运作（使用R）。什么是渠道归因？Google Analytics为归因建模提供了一套标准规则。根据Google的说法，“归因模型是决定销售和转化功劳如何分配给转化.........

原创 2019-06-21 14:52:05 · 1661 阅读 · 0 评论
R如何与Tableau集成分步指南 - 适用于数据科学和商业智能专业人员

原文链接：https://www.cnblogs.com/tecdat/p/11064949.htmlTableau是当今数据科学和商业智能专业人员使用的最流行的数据可视化工具之一。它使您能够以交互式和多彩的方式创建具有洞察力和影响力的可视化效果。在本文中，我们将看到一些超越拖放功能的高级图表。我们将创建计算以深入研究数据以提取洞察力。我们还将看看R如何与Tableau集成和使用...

原创 2019-06-21 15:39:24 · 1780 阅读 · 0 评论
R语言对用电负荷时间序列数据进行K-medoids聚类建模和GAM回归

原文链接：http://tecdat.cn/?p=4146通过对用电负荷的消费者进行聚类，我们可以提取典型的负荷曲线，提高后续用电量预测的准确性，检测异常或监控整个智能电网（Laurinec等人（2016），Laurinec和Lucká（ 2016））。第一个用例通过K-medoids聚类方法提取典型的电力负荷曲线。有50个长度为672的时间序列（消费者），长度为2周的耗电量的时间.........

原创 2019-06-20 17:37:36 · 1725 阅读 · 0 评论
R语言用随机森林和文本挖掘提高航空公司客户满意度

原文链接：http://tecdat.cn/?p=4248动机航空业的庞大规模让人有理由关心它：它不仅直接影响数百万人（传单，飞行员，工程师等），而且数百万人因间接影响其经济实力而间接影响数百万人。尽管北美航空业强劲，但为了保持持续增长以及作为跨地区行业领导者的持续地位，必须时刻保持警惕，以跟上客户需求。当然，在这方面的成功要求航空公司首先了解客户关心的是什么。发现航空公司客户喜......

原创 2019-06-20 17:10:56 · 1154 阅读 · 0 评论
R语言基于ARCH模型股价波动率建模分析

原文链接：http://tecdat.cn/?p=3856引言金融中一个重要度量是与资产相关的风险，而资产波动率是最常用的风险度量。然而，资产波动率的类型有多种。波动率是期权定价和资产分配中得一个关键颜色。波动率不能直接观测的性质在波动率研究和建模中有非常重要的含义数据选取笔者选取1973年1月到2009年12月，英特尔公司（INTC）股票的每月收盘价数据，同时也收集同期的S&am......

原创 2019-06-18 15:46:46 · 8907 阅读 · 3 评论
R语言中实现层次聚类模型

原文链接：http://tecdat.cn/?p=5305大家好！在这篇文章中，我将向你展示如何在R中进行层次聚类。什么是分层聚类？分层聚类是一种可供选择的方法，它可以自下而上地构建层次结构，并且不需要我们事先指定聚类的数量。该算法的工作原理如下：将每个数据点放入其自己的群集中。确定最近的两个群集并将它们组合成一个群集。重复上述步骤，直到所有数据点位于一个群集中......

原创 2019-06-21 15:20:41 · 2888 阅读 · 0 评论
R语言鸢尾花iris数据集的层次聚类分析

原文链接：http://tecdat.cn/?p=3200介绍本文在数据集上展示了如何使用dendextend R软件包来增强Hierarchical Cluster Analysis（更好的可视化和灵敏度分析）。背景鸢尾花数据集我们可以看到，Setosa物种与Versicolor和Virginica明显不同（它们具有较低的花瓣长度和宽度）。但是，基于对萼片和花瓣宽度.........

原创 2019-06-18 16:44:25 · 19262 阅读 · 7 评论
GARCH（1,1），MA以及历史模拟法的VaR比较

原文链接：http://tecdat.cn/?p=3817风险价值（VaR）及其所有相关问题仍然是风险管理中的主要模式。风险价值的一个关键问题是它没有适当地考虑波动率，这意味着危机期间风险被低估。解决这个问题的一个强有力的方法是将VaR与GARCH模型结合起来考虑条件波动性。为了说明这种方法，我们将一个正态分布的GARCH（1,1）应用于瑞士股票市场指数SMI。##Initi............

原创 2019-06-18 16:43:12 · 8304 阅读 · 2 评论
拟合R语言中的多项式回归

原文链接：http://tecdat.cn/?p=2686让我们看一个经济学的例子：假设你想购买一定数量q的特定产品。如果单价是p，那么你会支付总金额y。这是一个线性关系的典型例子。总价格和数量成正比。如下所示：但购买和出售，我们可能要考虑一些其他相关信息，就像当：购买显著数量很可能是我们可以要求并获得折扣，或购买更多更重要的是我们可能会推高价格。这可能......

原创 2019-06-14 15:10:10 · 26125 阅读 · 0 评论
R语言时间序列TAR阈值自回归模型

原文链接：http://tecdat.cn/?p=5231为了方便起见，这些模型通常简称为TAR模型。这些模型捕捉线性时间序列模型无法捕获的行为，如极限循环，幅度相关频率和跳跃现象。数据示例TAR模型通过抑制噪声项和截距并将阈值设置为0来获得：模型估计一种方法和这里讨论的方法是条件最小二乘（CLS）方法。情况1.如果r和d都是已知的。情况2.如果r未知。......

原创 2020-12-24 10:04:26 · 7473 阅读 · 2 评论
R语言时间序列TAR阈值模型分析

原文链接：http://tecdat.cn/?p=4276阈值模型用于几个不同的统计领域，而不仅仅是时间序列。总体思路是，当一个变量的值超过一定的阈值时，一个进程可能会有不同的表现。也就是说，当值大于阈值时，可能会应用不同的模型，而不是在阈值以下。例如，在药物毒理学应用中，可能低于阈值量的所有剂量都是安全的，而随着剂量增加到阈值量以上，毒性增加。或者，在动物种群丰富度研究中，人...

原创 2019-06-20 16:57:17 · 1506 阅读 · 0 评论
Python用PyMC3实现贝叶斯线性回归模型

原文链接：http://tecdat.cn/?p=5263在本文中，我们将在贝叶斯框架中引入回归建模，并使用PyMC3 MCMC库进行推理。我们将首先回顾经典或频率论者的多重线性回归方法。然后我们将讨论贝叶斯如何考虑线性回归。用PyMC3进行贝叶斯线性回归在本节中，我们将对统计实例进行一种历史悠久的方法，即模拟一些我们知道的属性的数据，然后拟合一个模型来恢复这些原始......

原创 2019-06-20 15:20:36 · 3202 阅读 · 1 评论
基于R语言混合效应模型（mixed model）案例研究

原文http://tecdat.cn/?p=2596混合模型适合需求吗？混合模型在很多方面与线性模型相似。它估计一个或多个解释变量对响应变量的影响。混合模型的输出将给出一个解释值列表，其效应值的估计值和置信区间，每个效应的p值以及模型拟合程度的至少一个度量。如果您有一个变量将您的数据样本描述为您可能收集的数据的子集，则应该使用混合模型而不是简单的线性模型。什么概率分布最适合数据？......

原创 2020-12-27 11:32:09 · 17153 阅读 · 11 评论
R语言推特twitter网络转发可视化分析

原文链接：http://tecdat.cn/?p=5124包含关键词“生物信息学”的推文示例

原创 2019-06-20 15:39:16 · 1778 阅读 · 0 评论
R语言对MNIST数据集分析：探索手写数字分类

原文链接：http://tecdat.cn/?p=5246数据科学和机器学习之间区别的定义：数据科学专注于提取洞察力，而机器学习对预测有兴趣。我还注意到这两个领域大相径庭：我在我的工作中同时使用了机器学习和数据科学：我可能会使用堆栈溢出流量数据的模型来确定哪些用户可能正在寻找工作（机器学习），但是会构建摘要和可视化来检查为什么（数据科学）。我想进一步探讨数据科学和机器学习如何相互...

原创 2019-06-21 15:00:49 · 3009 阅读 · 0 评论
R语言泊松Poisson回归模型分析案例

原文链接http://tecdat.cn/?p=2605这个问题涉及马蹄蟹研究的数据。研究中的每只雌性马蹄蟹都有一只雄性螃蟹贴在她的巢穴中。这项研究调查了影响雌蟹是否有其他男性居住在她附近的因素。被认为影响这一点的解释变量包括雌蟹的颜色（C），脊椎状况（S），体重（Wt）和甲壳宽度（W）。数据文件：crab.txt。我们将首先拟合仅具有一个自变量：宽度（W）的泊松回归模型............

原创 2019-06-17 17:29:09 · 20243 阅读 · 0 评论
R语言用rle，svm和rpart决策树进行时间序列预测

原文链接：http://tecdat.cn/?p=3072下面显示了四种预测时间序列的方法。支持向量机（R package e1071。“Chih-Chung Chang and Chih-Jen Lin，LIBSVM：a library for support vector machines，2005.”的实现）。递归分区（R package rpart。“Breiman.........

原创 2019-06-14 14:59:12 · 3426 阅读 · 0 评论
爬取微博用户行为数据语义分析数据挖掘

原文链接　　　　　　微博作为热门话题的聚集地，评价、点赞转发、评论有无水军……都可能影响新人们的判断。本文对婚策微博上的用户行为数据进行盘点，一起来看看微博用户行为里有哪些值得深挖的奥秘吧！　　　　▼　　每年的“五一”前后都是新人结婚的扎堆期。随着结婚旺季到来，如何办一场终身难忘的婚宴成为人们的热门话题。微博作为热门话题的聚集地，评价、点赞转发、评...

原创 2019-06-20 14:25:29 · 4367 阅读 · 0 评论
R语言：EM算法和高斯混合模型聚类的实现

原文：http://tecdat.cn/?p=3433本文我们讨论期望最大化理论，应用和评估基于期望最大化的聚类。软件包install.packages("mclust");require(mclust)## Loading required package: mclust## Package 'mclust' version 5.1## Type 'cit.........

原创 2019-06-13 22:07:24 · 11892 阅读 · 1 评论
R语言：用R语言填补缺失的数据

缺少数据在分析数据集时可能不是一个微不足道的问题。如果缺失数据的量相对于数据集的大小非常小，那么为了不偏离分析而忽略缺少特征的少数样本可能是最好的策略，但是留下可用的数据点会剥夺某些数据的特征。尽管某些快速修正如均值替代在某些情况下可能很好，但这种简单的方法通常会向数据中引入偏差。在这篇文章中，我们将使用airquality数据集（在R中提供）来推测缺失值。为了本文的目的，我...

原创 2019-08-05 23:10:04 · 3242 阅读 · 0 评论
r语言中对LASSO回归，Ridge岭回归和Elastic Net模型实现

原文：http://tecdat.cn/?p=3795介绍Glmnet是一个通过惩罚最大似然来拟合广义线性模型的包。正则化路径是针对正则化参数λ的值网格处的套索或弹性网络罚值计算的。该算法速度极快，可以利用输入矩阵中的稀疏性x。它符合线性，逻辑和多项式，泊松和Cox回归模型。可以从拟合模型中做出各种预测。它也可以适合多响应线性回归。glmnet算法采用循环坐标下降法，它连续优化每......

原创 2019-06-18 15:04:25 · 7937 阅读 · 0 评论
R语言中的LDA模型：对文本数据进行主题模型topic modeling分析

原文链接：http://tecdat.cn/?p=4333主题建模在文本挖掘中，我们经常收集一些文档集合，例如博客文章或新闻文章，我们希望将其分成自然组，以便我们可以分别理解它们。主题建模是对这些文档进行无监督分类的一种方法，类似于对数字数据进行聚类，即使我们不确定要查找什么，也可以找到自然的项目组。潜在狄利克雷分配（LDA）是拟合主题模型特别流行的方法。它将每个文档视为主题的混...

原创 2019-06-20 15:23:20 · 3223 阅读 · 0 评论
R语言如何和何时使用glmnet岭回归

原文链接：http://tecdat.cn/?p=3373这里向您展示如何在R中使用glmnet包进行岭回归（使用L2正则化的线性回归），并使用模拟来演示其相对于普通最小二乘回归的优势。岭回归当回归模型的参数被学习时，岭回归使用L2正则化来加权/惩罚残差。在线性回归的背景下，它可以与普通最小二乘法（OLS）进行比较。OLS定义了计算参数估计值（截距和斜率）的函数。它涉及最小化平方......

原创 2019-06-18 16:41:05 · 3671 阅读 · 0 评论
python在Scikit-learn中用决策树和随机森林预测NBA获胜者

原文链接：http://tecdat.cn/?p=5222在本文中，我们将以Scikit-learn的决策树和随机森林预测NBA获胜者。美国国家篮球协会（NBA）是北美主要的男子职业篮球联赛，被广泛认为是首屈一指的男子职业篮球联赛在世界上。它有30个团队（美国29个，加拿大1个）。在常规赛期间，每支球队打82场比赛，每场41场。一支球队每年会有四次面对对手（16场比赛）。每个小.........

原创 2019-06-18 15:12:21 · 2849 阅读 · 0 评论
sas文本挖掘案例：如何使用SAS计算Word Mover的距离

原文链接：http://tecdat.cn/?p=6181Word Mover的距离（WMD）是用于衡量两个文档之间差异的距离度量，它在文本分析中的应用是由华盛顿大学的一个研究小组在2015年引入的。Word Mover距离的定义WMD是两个文档之间的距离，作为将所有单词从一个文档移动到另一个文档所需的最小（加权）累积成本。通过解决以下线性程序问题来计算距离。T i...

原创 2019-06-21 14:16:03 · 826 阅读 · 0 评论
通过SAS网络分析对人口迁移进行可视化分析

原文链接：http://tecdat.cn/?p=5468世界上超过3.5％的人口正在移动，被视为国际移民。这是一个超过2.5亿人生活在一个不同于他们的出生国或国籍的国家。以另外一种方式，如果所有的移民生活在一个国家，其人口将是5个最大的国家在世界上！移民的流动，我们创建了一个可视化，让用户亲眼看看移民的移动情况。移民迁移到哪些国家？在移居特定国家的所有移民中，他们来自哪里？......

原创 2019-06-20 16:45:18 · 594 阅读 · 0 评论
数据告诉你:互联网哪个职位最有前途?

原文链接互联网无疑是当今最热门的行业。这个行业高薪资的背后也是大量的加班和激烈的竞争。择业不能只看薪水，适合自己才是最重要的。互联网公司都需要哪些人才？哪些职位更抢手？！本文对近年来互联网职位数据进行盘点，一起来看看职位数据有哪些值得深挖的奥秘吧！▼互联网无疑是当今最热门的行业，越来越多的人投入到互联网的浪潮中。这个行业高薪资的背后也是大量的加班和激烈的竞争。择业不能只...

原创 2019-06-21 14:41:02 · 1372 阅读 · 0 评论
互联网热门职位薪资对比报告

原文链接互联网无疑是当今最热门的行业。这个行业高薪资的背后也是大量的加班和激烈的竞争。择业不能只看薪水，适合自己才是最重要的。互联网公司都需要哪些人才？哪些职位更抢手？！本文对近年来互联网职位数据进行盘点，一起来看看职位数据有哪些值得深挖的奥秘吧！▼互联网无疑是当今最热门的行业，越来越多的人投入到互联网的浪潮中。这个行业高薪资的背后也是大量的加班和激烈的竞争。择业不能只看薪水，...

原创 2019-06-21 14:41:32 · 1638 阅读 · 0 评论
Python使用矩阵分解法找到类似的音乐

原文链接：http://tecdat.cn/?p=6054这篇文章是如何使用几种不同的矩阵分解算法计算相关艺术家。代码用Python编写，以交互方式可视化结果。加载数据这可以使用Pandas加载到稀疏矩阵中：# read in triples of user/artist/playcount from the input datasetdata = pandas...

原创 2019-06-21 14:24:12 · 685 阅读 · 0 评论
r语言ggplot2误差棒图快速指南

原文链接：http://tecdat.cn/?p=5506给直方图和线图添加误差棒准备数据这里使用ToothGrowth 数据集。library(ggplot2) df <- ToothGrowth df$dose <- as.factor(df$dose) head(df) ## len supp dose ## 1 4.2 VC 0.5 ##......

原创 2019-06-18 16:30:15 · 8308 阅读 · 0 评论