R语言
文章平均质量分 84
moisiet
哪管真理无穷,知识海洋,进一寸有一寸的惊喜~
展开
-
R建模8大步骤
R数据分析-1.整体概述1.数据加载2.数据清洗3.数据探索4.数据建模5.模型诊断6.数据预测7.预测评估8.模型比较当我们拿到一堆数据要进行建模预测的时候,往往不知道该怎么处理。尤其是对于学数理统计的同学,往往老师会布置一个大作业,自找数据,自行分析,自行预测。很多时候会一头雾水,不知从何做起。本人也是从这个过程走过,因此这里跟大家分享一下我个人进行数据清洗,分析,建模和预测的经验。本篇文章...原创 2018-12-12 15:03:44 · 4885 阅读 · 2 评论 -
R-数据加载(csv,excel,txt,rdata,spss,stata)
原始数据可以从本地文件,本地数据库和网络上获取。本地文件主要包括:txt文件,csv文件,excel文件,RData文件,xml文件。本地数据库类型包括SQL Server,Access,MySQL,SQLite等常见数据库。网络数据则包括直接存放在网络上的文件数据(csv,excel,txt等)和需要进行爬取的网页数据。由于大部分的数据都是本地文件和网上的文件,因此这里着重讲解一下本地文件和网...原创 2018-12-12 16:27:07 · 7163 阅读 · 0 评论 -
R-数据清洗(附代码,图片)
数据清洗是将原始的数据进行整理和规范,以达到数据分析人员使用要求的数据。这个过程很重要,也很花费时间。现将当前学到的方式总结,欢迎大家互相交流。1.缺失值处理在R中,当原始数据中存在缺失值时,该缺失值用NA表示,如下图有一个缺失值。birth=read.csv("chds_births.csv",header = TRUE)head(birth)若某一列数据缺失过多(&am原创 2018-12-13 10:11:03 · 4436 阅读 · 0 评论 -
R-数据分割(附代码)
在对数据进行建模的过程中,为了评估模型预测准确性。需要将原始数据划分成训练集和测试集两部分(若数据量足够大,也可以划分为训练集,验证集和测试集三部分)。其中训练集用于训练模型(学习器),测试集用于评估模型优劣性。本文总结了几种数据分割的方法,供大家交流学习。测试集与训练集的比例没有统一规定,一般视样本量的多少训练集与测试集划分比例为3:1-4:1。这里我按数据类型是否包含因子类型分成两种类型讨...原创 2018-12-14 11:44:16 · 14488 阅读 · 2 评论 -
R-数据处理和可视化包简介
所用工具包再谈谈R中所用的包,主要分类两类:数据处理和可视化。数据处理包:rvest用来做实时爬虫,每次程序一启动就开始做最新的实时爬虫。plyr和dplyr主要做数据筛选、排序、聚合计算等。stringr用来对字符串分割、转换等。data.table用来读取大量的历史数据并做一些简单的处理。reshape2用来对数据框做变形处理。可视化包:shiny和shinydashboar...转载 2019-05-07 19:42:57 · 516 阅读 · 0 评论