![](https://img-blog.csdnimg.cn/20200926164148499.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
R语言数据分析与挖掘
文章平均质量分 87
本专栏记录学习R语言的一些记录和一些做的项目。
俱往矣`
上市公司算法团队负责人,主要工作方向:LLM、AI agent。
展开
-
基于负荷曲线的聚类分析与预测
基于负荷曲线的聚类分析与预测数据预处理时间序列初步分析季节ARIMA模型(划分测试集训练集)聚类分析部分数据预处理# 安装库专用# 通过如下命令设定镜像options(repos = 'http://mirrors.ustc.edu.cn/CRAN/')# 查看镜像是否修改getOption('repos')# 尝试下载R包#若有需要,进行安装#install.packages('forecast')‘http://mirrors.ustc.edu.cn/CRAN/’#设置工作路径原创 2021-07-01 16:31:35 · 3267 阅读 · 0 评论 -
工业产量分析与预测
工业产量分析与预测导入数据与数据概况数据描述统计时序数据进行分析尝试建立时间序列预测模型先对汽车进行分析试试灰色预测灰色预测汽车灰色预测天然气灰色预测钢材组合模型探索相关关系各省份进行聚类分析及可视化标准化后再聚类导入数据与数据概况# 安装库专用# 通过如下命令设定镜像options(repos = 'http://mirrors.ustc.edu.cn/CRAN/')# 查看镜像是否修改getOption('repos')# 尝试下载R包#若有需要,进行安装#install.packa原创 2021-07-01 16:11:59 · 1143 阅读 · 1 评论 -
高发疾病分布特征分析
高发疾病分布特征分析仅列举三种高发疾病,对其患病者年龄分布、性别分布、危险因素等进行可视化以探究一些有趣的规律。高发疾病分布特征分析高发疾病分布特征分析一、数据可视化1.1 不同年龄病别总患病率1.2 不同疾病与危险因素关系二、省份高发疾病聚类分析地图可视化三、相关关系可视化四、时间序列预测(仅举个例)五、不同性别人口结构图一、数据可视化1.1 不同年龄病别总患病率# 安装库专用# 通过如下命令设定镜像options(repos = 'http://mirrors.ustc.edu.cn/C原创 2021-05-13 20:43:44 · 1346 阅读 · 6 评论 -
科技主题基金数据分析
科技基金数据分析科技主题基金数据分析科技基金数据分析一、数据预处理二、基础分布描述性分析2.1 R平方与风险系数散点分布图3.2 探索相关性三、探索基金收益分布之间规律及其分布情况3.1 不同主题基金规模分布对比3.2 不同主题基金回报率分布3.3不同主题基金净值之间对比3.4 不同主题基金回报率分布3.5 近一年增长率分布情况3.8 不同投资类型的基金规模情况3.9 基金规模分布情况3.12 收益矩阵分布图四、基金风险分布可视化4.1 不同主题晨星风险系数之间对比4.2 风险分布矩阵图,验证风险评级是原创 2021-05-04 21:07:21 · 344 阅读 · 0 评论 -
北上广深房屋租赁数据分析
房屋租赁信息北上广深房屋租赁数据分析一、数据预处理二、描述性统计2.1 区级租金箱线图2.2 租金分布情况2.3 北京各行政区租金分布2.4 各城市租金分布对比图2.5 北京各行政区租金分布之间对比(豆荚图)2.6 整租房屋中,不同卧室数量租金分布情况对比2.7 不同城市各数据矩阵散点图三、数据探索3.1面积和租金价格分布图3.2 地铁距离和租金价格分布图3.3 经纬度信息挖掘北上广深房屋租赁数据分析北上广深四个一线城市,哪个城市的租房更加友好呢?城市各区域的租金是怎么分布的?离地铁口远近、房子大小、是原创 2021-05-04 20:12:12 · 2962 阅读 · 3 评论 -
利用机器学习方法对猪肉价格预测
基于机器学习对猪肉价格预测猪肉价格预测问题背景导入数据一、支持向量机二、随机森林三、 MLP神经网络猪肉价格预测支持向量机回归随机森林回归MLP神经网络回归问题背景“猪粮安天下”,生猪自古以来便在国计民生中占据着重要地位,猪肉是我国城乡居民“菜篮子”中不可或缺的产品。但从 2018 年非洲猪瘟爆发以来,生猪产业遭到巨大冲击,生猪市场价格波动频繁,不仅给养殖者造成巨大的经济损失,也给广大消费者造成了很大困扰。2020 年新冠肺炎疫情突袭,再次对逐步恢复的生猪产业产生一定不利影响。(本文指标选原创 2021-04-22 20:31:16 · 3295 阅读 · 5 评论 -
北京温度可视化实例(热力图可视化)
北京温度可视化实例# 安装库专用# 通过如下命令设定镜像options(repos = 'http://mirrors.ustc.edu.cn/CRAN/')# 查看镜像是否修改getOption('repos')# 尝试下载R包#若有需要,进行安装install.packages('beanplot')‘http://mirrors.ustc.edu.cn/CRAN/’Installing package into 'C:/Users/天涯过客/Documents/R/win-li原创 2021-04-12 11:58:26 · 979 阅读 · 3 评论 -
电力负荷短期预测模型(基于ARIMA)
电力分析与预测根据提供的客户的20天的分时段数据,进行分析:要求1:根据数据对客户进行聚类分析;要求2:根据数据对客户进行负荷预测。一.导入数据# 安装库专用# 通过如下命令设定镜像options(repos = 'http://mirrors.ustc.edu.cn/CRAN/')# 查看镜像是否修改getOption('repos')# 尝试下载R包#若有需要,进行安装#install.packages('forecast')‘http://mirrors.ustc.edu原创 2021-04-08 15:17:00 · 6202 阅读 · 5 评论 -
电商平台关联法则模型及推荐系统实现(R语言)
电商平台关联法则模型及推荐系统实现(R语言)关联规则算法在电商行业中的应用Apriori算法应用广泛,可用于消费市场价格分析,猜测顾客的消费习惯,比如较有名的“尿布和啤酒”的故事。其核心思想是通过连接产生候选项及其支持度,然后通过剪枝生成频繁项集,这里的频繁项集是指所有支持度大于等于给定最小支持度的项集。项集:在关联分析中,包含0个或多个项的集合被称为项集(itemset)。如果一个项集包含k个项,则称它为k-项集。空集是指不包含任何项的项集。数据集情况现有数据集如下:说明:数据量:564169原创 2021-03-28 20:27:55 · 2162 阅读 · 6 评论 -
R语言绘制树形图
R语言绘制树形图数据格式:> head(goodsstat) goodsID count_goods count_goods_back pay_goods451 PR000450 147 22 98399.32714 PR000713 148 34 123259.05756 PR000755 148 24 118296.08922 PR000921原创 2021-03-16 13:07:09 · 928 阅读 · 0 评论 -
R语言绘制日历热力图
R语言绘制日历热力图数据格式> data data3.payTime data3.payment1 2019-01-03 14:19:16 101.260002 2019-01-03 14:53:13 48.650003 2019-01-03 22:51:02 102.460004 2019-01-04 10:47:05 12.470005 2019-01-04 13:43:51 2398.690006原创 2021-03-16 13:02:07 · 1984 阅读 · 0 评论 -
电商用户数据初等分析
利用购买时间提取特征数据来源:https://www.kesci.com/mw/dataset/5f64a07b71c700003072df60/file说明: 本数据集共有104557条数据,共计11个字段字段:id : 序号orderID :订单iduserID :用户idgoodsID :商品idorderAmount :订单总额payment :买家实际支付金额chanelID :渠道idplatfromType :购买渠道orderTime :订单产生时间payTime原创 2021-03-16 10:14:36 · 772 阅读 · 0 评论 -
R语言绘制山脊图
R语言绘制山脊图数据格式如下:将其转换为下列格式:程序如下:#山脊图library(ggplot2)library(ggridges)#theme_set(theme_ridges())library(RColorBrewer)library(ggridges)library(readxl)mydata<- read_excel("data.xlsx")#读入数据Colormap<- colorRampPalette(rev(brewer.pal(11,'Spectr原创 2020-11-10 17:28:44 · 1093 阅读 · 0 评论 -
利用机器学习算法进行汽车接受程度预测
利用机器学习算法进行汽车接受程度预测分类算法汽车满意度数据集朴素贝叶斯分类导入相应数据,划分训练测试集建立分类器朴素贝叶斯算法优缺点决策树算法建立分类树建立分类树对分类器进行可视化决策树的优缺点预测结果可视化分类算法分类算法是基于有类标号的训练集数据建立分类模型并使用其对新观测值(测试数据集)进行分类的算法,属于有监督学习。对于有监督学习,主要需要建立合适的分类器,对不同类型的数据集进行恰当的分类,达到较高的准确率或召回率或F-score值。同时不同方法,对于不同问题带来的效果是不同的,比如决策树算原创 2020-11-04 21:46:32 · 3787 阅读 · 3 评论 -
试验设计及其可视化
试验设计数据概况尝试描述性可视化插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入数据概况我们知道,有时候,接触游戏中的一个概念会导致它不那么启动。也就是说,人们很难把这个概念记在脑子里。因此,在Chittaro和Buttussi的疏散游戏中暴露较长时间的玩家可能会记住较少的游戏所要教的内原创 2020-10-24 17:37:16 · 508 阅读 · 0 评论 -
漏斗模型_绘制漏斗图
漏斗模型_绘制漏斗图漏斗思维,它是一种线性的思考方式,一般按照任务的完成路径,识别出几个关键的行为转化节点,然后分析行为点间的转化与流失情况,进而定位问题,指导决策。漏斗模型是指多个自定义事件序列按照制定顺序依次触发的流程中的量化转化模型,也就是从起点到终点有多个环节,每个环节都会产生用户流失,依次递减,每一步都会有一个转化率。数据概况:绘制图形:funnel <- read.csv("新手教程路径留存人数统计.csv",T,fileEncoding="utf8")# 查看funnel数原创 2020-10-06 11:31:13 · 1850 阅读 · 0 评论 -
关联规则算法在游戏行业中的应用
关联规则算法在游戏行业中的应用Apriori算法应用广泛,可用于消费市场价格分析,猜测顾客的消费习惯,比如较有名的“尿布和啤酒”的故事。其核心思想是通过连接产生候选项及其支持度,然后通过剪枝生成频繁项集,这里的频繁项集是指所有支持度大于等于给定最小支持度的项集。项集:在关联分析中,包含0个或多个项的集合被称为项集(itemset)。如果一个项集包含k个项,则称它为k-项集。例如:{新手礼包,8条钥匙,10000金币,十个滑板} 是一个4-项集。空集是指不包含任何项的项集。现有数据集如下:其中:pl原创 2020-10-06 00:21:11 · 2427 阅读 · 3 评论 -
留存率预测(利用T值调整)
留存率预测(利用T值调整)本文为《R语言游戏数据分析与挖掘》学习笔记,仅作分享。由于由幂函数拟合得到的留存率曲线过于平滑,而现实数据往往会出现锯齿状,由幂函数预测得到的数据在后期会出现预测误差较大等情况,且后期预测值大于实际值。如图所示:故可类比回归分析加权重系数的方法,添加T值对预测值进行调整。由经验可知:T值分布如下:故可借鉴上文方法,进行预测,再将预测值乘以对应的T值,便可得到调整后的预测值。①先利用上文方法对两类游戏进行留存率预测:程序如下:actual <- read.c原创 2020-10-05 17:20:44 · 1495 阅读 · 0 评论 -
留存率预测模型
留存率预测模型由资料和模型可知:留存率曲线是一个指数曲线,可根据前7天留存率数据预测之后的留存率数据:利用nls函数求出幂指数函数y=a*x^b的系数a、b# 前七天实际留存率数据(day <- seq(1:7)) # 天数(ratio <- c(0.383,0.268,0.216,0.187,0.167,0.156,0.145)) # 留存率值# 利用nls函数求出幂指数函数y=a*x^b的系数a、bfit <- nls(ratio~a*day^b,start = list(原创 2020-10-05 16:44:42 · 2674 阅读 · 0 评论 -
teengamb数据集进行回归分析
回归分析在 faraway 包中,包含一个 47 行 5 列的 teengamb 数据集(加载 faraway包后,可通过代码“head(teengamb)”查看数据的前 5 行,通过“?teengamb”查看每个变量的具体意义),该数据是研究关于青少年赌博情况的数据集。针对该数据集,请回答以下问题:原创 2020-09-26 11:54:40 · 10014 阅读 · 1 评论 -
对于teengamb数据集进行神经网络分类
对于teengamb数据集进行神经网络分类MLP神经网络介绍:MLP(Multi-Layer Perceptron),即多层感知器,是一种趋向结构的人工神经网络,映射一组输入向量到一组输出向量。MLP可以被看做是一个有向图,由多个节点层组成,每一层全连接到下一层。除了输入节点,每个节点都是一个带有非线性激活函数的神经元(或称处理单元)。一种被称为反向传播算法的监督学习方法常被用来训练MLP。MLP是感知器的推广,克服了感知器无法实现对线性不可分数据识别的缺点。对teengamb利用神经网络方法进行分原创 2020-09-26 11:21:18 · 1505 阅读 · 0 评论 -
政务系统留言词云图
政务系统留言词云图对政务系统对留言,进行分词,词频统计并生成词云图。library(wordcloud2)library(rJava)library(Rwordseg) library(RColorBrewer)library(wordcloud)library(tmcn)library(tm)library(readxl)library(stringr)library(xlsx)library(readxl)data<-read_xlsx('C:/Mathmodel/Pyt原创 2020-09-26 11:09:03 · 899 阅读 · 0 评论 -
R语言聚类分析案例
R语言聚类分析案例在 mclust 包中包含一个 diabetes 数据集(加载 mclust 包后,可通过代码“head(diabetes)”查看数据的前 5 行,通过“?diabetes”查看每个变量的具体意义),该数据集包含 145 名糖尿病患者的三个指标的测量数据,针对该数据集,请进行如下分析:(1)只考虑 3 个指标数据,使用 k-means 聚类对数据进行聚类分析,找到合适的聚类数目,并对聚类效果进行评估;######################第五题 聚类分析############原创 2020-09-26 10:58:42 · 15465 阅读 · 0 评论 -
二氧化碳吸收速率统计分析
在 R 自带的 datasets 包中包含一个 CO2(注意是大写字母)数据集(可通过代码“head(CO2)”查看数据的前 5 行,通过“?CO2”查看每个变量的具体意义),该数据是在某项实验中植物对二氧化碳的吸收情况的记录,共有 84 行 5 列。针对该数据集,请进行以下问题的分析:(1)二氧化碳吸收速率(uptake)的数据是正态分布吗?如果不是,那是什么分布?先绘制基础的分布图像:head(CO2)co2=CO2#uptake指的是吸收率#conc环境二氧化原创 2020-09-25 23:52:21 · 6246 阅读 · 0 评论 -
简单编程基础
R语言编程基础1.1. 生成一个包含100个元素的向量A,元素的取值范围为0-1000,并且该向量中前40个元素是偶数,第41~80个元素为5的倍数,最后20个元素是3的倍数。vec<-seq(0:1000)A<-vector()##前40元素为偶数for(ii in 1:length(vec)){ if(vec[ii]%%2==0) A<-c(A,vec[ii]) if(length(A)==40)#当向量有40个元素时跳出 break}##第4原创 2020-09-25 23:16:05 · 2042 阅读 · 0 评论 -
时间序列分析Nile案例(基于R)
时间序列分析Nile案例(基于R)时间序列分析Nile案例数据预处理时间序列分析Nile案例在 R 的 datasets 包中,包含一个 Nile 的数据集,该数据是一个时间序列数据,主要记录了 1971 年-1970 年尼罗河每年的流量,请对其进行分析:数据预处理数据概况:> NileTime Series:Start = 1871 End = 1970 Frequency = 1 [1] 1120 1160 963 1210 1160 1160 813 1230 137原创 2020-06-22 19:30:11 · 5145 阅读 · 2 评论 -
2017年国赛拍照赚钱问题地图可视化APP(shiny)
**拍照赚钱问题地图可视化APP(shiny)**赚钱问题地图可视化数据预处理赚钱问题地图可视化“拍照赚钱”是移动互联网下的一种自助式服务模式。用户下载 APP,注册成为 APP 的会员,然后从 APP 上领取需要拍照的任务(比如上超市去检查某种商品的上架情况),赚取 APP 对任务所标定的酬金。这种基于移动互联网的自助式劳务众包平台,为企业提供各种商业检查和信息搜集,相比传统的市场调查方式可以大大节省调查成本,而且有效地保证了调查数据真实性,缩短了调查的周期。因此 APP 成为该平台运行的核心,而 A原创 2020-06-21 18:46:17 · 1940 阅读 · 2 评论 -
R语言数据可视化案例(世界杯球员信息数据可视化)
R语言数据可视化案例(世界杯球员信息数据可视化)世界杯球员案例数据预处理世界杯球员案例在 faraway 包中包含一个名为 worldcup 的数据集(加载 faraway 包后,可通过代码“head(worldcup)”查看数据的前 5 行,该数据集是 2010 年世界杯上球员的信息数据,每个变量所表示的信息如下:Team: 国家Position:位置,包括后卫、前锋、守门员、中场Time: 上场总时间Shots: 射门的次数Passes:传球次数Tackles:铲球次数Saves: 救原创 2020-06-21 17:59:20 · 18149 阅读 · 20 评论 -
爬取豆瓣书籍数据(基于R)
爬取豆瓣书籍数据(基于R)爬取豆瓣书籍数据了解网页结构自动收集单个网页数据自动收集多个网页数据爬取豆瓣书籍数据网络爬虫,就是从网页中获取需要的信息,提取相应的数据。可以利用R语言爬虫获取网页数据信息,便于统计分析。常用的从网页中获取信息的包有RCurl,XML,rvest等 。还可以利用RSslenium包或者Rwebdriver包模拟浏览器爬取异步加载等较难爬取的网页信息。本文便以爬取...原创 2020-06-21 18:00:46 · 2960 阅读 · 0 评论 -
爬取豆瓣电影数据(基于R)
爬取豆瓣电影数据(基于R)爬取豆瓣电影数据了解网页结构自动收集单个网页数据自动收集多个网页数据爬取豆瓣电影数据网络爬虫,是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本,它们被广泛用于互联网搜索引擎或其他类似网站,可以自动采集所有其能够访问到的页面内容,以获取或更新这些网站的内容和检索方式。可以利用爬虫获取网页数据信息,便于统计分析。本文便以爬取豆瓣电影数据为例,来描述网络爬虫过程...原创 2020-04-22 09:39:52 · 6123 阅读 · 3 评论 -
REmap做地图可视化
利用REmap包做地图可视化地图可视化利用REmap获取行政信息地图可视化R语言REmap包具有十分强大的地图可视化功能。可以十分方便地做空间热力图和空间迁徙图,使用十分方便,地图可视化也使得空间信息更加丰富直观。本文将从2018年全国各省客运量入手,了解地图可视化<本文是学习《R语言统计分析与机器学习》后的学习笔记>数据概况:从搜集到的数据可看出,该数据给出了省份,客运...原创 2020-04-21 21:17:09 · 2290 阅读 · 4 评论 -
爬取芝加哥公牛队球员数据(基于R)
爬取芝加哥公牛队球员数据(基于R)爬取球员数据爬取球员数据从美国NBA技术统计网站可获取NBA比赛和球队的信息数据,可对其进行数据爬取,便于统计分析。需要爬取的网址为:http://www.stat-nba.com/team/CHI.html<本文是学习《R语言统计分析与机器学习》后的学习笔记>数据概况:从网页可看出,该网页大都是通过表格形式给出,可利用readHTMLT...原创 2020-04-20 16:10:35 · 1319 阅读 · 0 评论 -
【学习笔记】kaggle案例之泰坦尼克号(基于R)
kaggle案例之泰坦尼克号(基于R)泰坦尼克号案例数据预处理功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入泰坦尼克...原创 2020-04-19 10:36:00 · 3816 阅读 · 0 评论