R语言
文章平均质量分 90
R语言数据分析,数据处理,数据挖掘,数据可视化等。
FTDdata
R语言、Python,数据分析,数据挖掘,公众号FTDdata
展开
-
R语言--map与reduce
map(映射)与reduce(规约)操作在数据处理中非常常见,R语言的核心是向量化操作,自带的apply系列函数完成了数据框的向量化计算,而purrr包中的map与reduce系列函数很好的拓展了向量化计算,使R语言处理数据更加优雅流畅。purrr包是tidyverse系列中的包,开发者是大名鼎鼎的Hadley Wickham。purrr包中的函数很多,使用最多的是map与reduce系列函数。安装包install.packages('purrr')mapmap表示映射,可以在一个或多个列表.原创 2021-04-01 17:27:16 · 8026 阅读 · 0 评论 -
R语言--邻近算法KNN
KNN(k邻近算法)是机器学习算法中常见的用于分类或回归的算法。它简单,训练数据快,对数据分布没有要求,使它成为机器学习中使用频率较高的算法,并且,在深度学习大行其道的今天,传统可解释的简单模型在工业大数据领域的应用更为广泛。本文介绍KNN算法的基本原理和用R代码实现。算法介绍KNN的核心思想可以用平常的俗语表示"物以类聚,人以群分",就是相似的东西很有可能具有相似的属性。k邻近法假设给定一个训练数据集,其中的数据标签已给。对于新的样本,找到与其k个最近邻的训练数据,这k个训练数据的多数属于某个类,.原创 2020-05-15 20:36:07 · 11021 阅读 · 0 评论 -
R语言--操作MySQL数据库
用R语言做数据分析时,常常需要从多种数据源取数据,其中数据库是非常常见的数据源。用R操作MySQL数据库,可以说是数据分析师必备的技能了,本文介绍RMySQL包,可以在R语言中对数据库进行增删改查的操作。软件版本win10 64bitr3.6.1rstudio 1.2RMySQL 0.10.20安装包install.packages('RMySQL')创建连接用dbCo...原创 2020-04-29 20:47:19 · 9132 阅读 · 0 评论 -
网页版R--RStudio Server
RStudio Server是网页版的RStudio,相比于单机版,它的灵活性更强,部署在服务器上后,可随时随地完成R语言的工作。并且能很方便的完成R项目的部署调试。本文介绍RStudio Server的安装和使用,以及一些需要注意的细节。介绍R语言的IDE一般用户都选用RStudio,用起来非常方便,但一般都是下载的单机版,对于在单机上做的项目,如果在其他机器上使用,又要重新安装一遍R...原创 2020-04-19 18:55:44 · 20581 阅读 · 2 评论 -
R语言--不均衡问题处理
在机器学习分类任务中,常常会碰到样本不均衡问题,正确处理样本不均衡会提高模型的实用性和准确率,本文介绍不均衡问题以及用R语言解决。介绍样本不均衡问题是指在机器学习分类任务中,不同类型的样本占比差距悬殊。比如训练数据有100个样本,其中只有5个正样本,其余均为负样本,这样正样本:负样本=5%:95%,训练数据中负样本过多,会导致模型无法充分学习到正样本的信息,这时候模型的正确率往往较高,但...原创 2020-03-26 10:41:01 · 11775 阅读 · 0 评论 -
R语言--发送邮件(mailR包)
用R自动发送邮件,在某些工作场合是非常实用的,能极大提高工作效率。本文介绍用R实现自动发送邮件。在R语言中,用mailR包实现邮件的自动发送,用脚本发邮件,属于第三方邮件发送方式,需要有一个smtp服务器的支持。常见的邮箱,如qq,goole,163等都有smtp服务。开通smtp服务本文以网易的163邮箱为例,如下图,在设置中,找到smtp服务,服务器地址可以看到是smtp.163.c...原创 2020-03-19 17:37:28 · 11046 阅读 · 0 评论 -
R语言--字符处理(stringr包)
R语言支持字符处理,内置了系列函数(grep、gsub等),但系列函数定义混乱,对使用者极不方便。stringr包是专门用于字符处理的R包,函数定义简洁、使用方式统一,是使用率较高的R包。stringr包中的大部分函数具有统一风格的命名方式,以str_开头,正则表达式也完全适用该包。环境&r软件win10 64bitR 3.6.1安装包install.packages(...原创 2020-03-18 12:13:37 · 13005 阅读 · 0 评论 -
R语言--高效操作数据框(dplyr包)(3)
本文是R语言–高效操作数据框(dplyr包)系列的第三篇,主要介绍了数据框连接操作、数据框集合操作和数据框的分组计算等常见数据操作。数据框连接 joinjoin系列函数用来连接两个数据框。# 数据框df1 <- tibble(id=1:2,v1=c("a1","a2"))df2 <- tibble(id=2:4,v2=c("b1","b2","b3"))# 内连接i...原创 2020-03-14 22:22:53 · 9827 阅读 · 0 评论 -
R语言--高效操作数据框(dplyr包)(2)
本文是R语言–高效操作数据框(dplyr包)系列的第二篇,介绍了列重命名、行筛选、行排序、行去重、数据合并等常见操作。列重命名 renamerename用来给列重命名,对于复杂情况的重命名特别有效。其中,全部列重命名采用基础方法names实现。# 数据tbl_df <- tibble(var1=1:4,var2=2:5,label=c("a","b","a","c"))单个...原创 2020-03-11 10:42:52 · 9906 阅读 · 2 评论 -
R语言--高效操作数据框(dplyr包)(1)
数据框是R语言中的一个重要数据结构,在数据分析过程中,主要的数据对象就是数据框。R语言内置了data.frame类,dplyr包则加强了数据框的各种操作,语法与SQL类似,使数据框的处理变得灵活多变,处理速度得到很大提升。本文针对在数据分析中数据框使用的各种常用场景,总结了dplyr包的使用方法。本文为该系列的第一篇。环境&软件win10 64bitR 3.6.1安装包...原创 2020-03-08 17:59:25 · 10848 阅读 · 0 评论 -
R语言--粒子群优化算法PSO
粒子群优化算法(Particle Swarm Optimization,简称PSO)是通过模拟鸟群捕食行为设计的一种群智能算法。本文介绍算法原理,R代码实现以及R包实现。粒子群优化算法的基本思想:是通过群体中个体之间的协作和信息共享来寻找最优解。PSO的优势在于简单容易实现并且没有许多参数的调节,广泛应用于函数优化、神经网络训练等领域。算法原理介绍粒子群算法通过设计一种无质量的粒子来...原创 2020-03-01 17:12:29 · 15155 阅读 · 1 评论 -
R语言--向量化计算(apply族函数)
R语言最优秀的是它的向量化编程,这其中apply族函数扮演了非常重要的角色。apply族函数是由apply、sapply、lapply、mapply、tapply等函数组成的。熟练使用apply族函数,能够简化程序,提高代码的运算速度。软件&环境win10 64bitR 3.6.1applyapply是最基本的函数。为了方便演示,选取了R自带的数据框mtcars的前4行和前...原创 2020-01-17 17:40:30 · 9672 阅读 · 0 评论 -
R语言--ELM极限学习机(elmNNRcpp包)
极限学习机(Extreme Learning Machine) 具有学习效率高和泛化能力强的优点,被广泛应用于分类、回归、聚类、特征学习等问题中。本文利用elmNNRcpp包实现极限学习机的回归和分类算法。极限学习机(Extreme Learning Machine) 是一种单隐含层前馈神经网络(Single-hidden Layer Feedforward Neural Network)...原创 2020-01-22 12:47:25 · 11349 阅读 · 0 评论 -
R语言--百度ECharts接口(echarts4r包)
ECharts,是百度的一个开源的数据可视化工具,一个纯 Javascript 的图表库。echarts4r 包是 ECharts 的 R 语言接口,目前可以从 CRAN 是直接安装。echarts4r 语法结构简单,易用,可读性很好,是很好的交互式绘图包。本文介绍 echarts4r 的常规交互式图形,交互式图形可以用在 rmarkdown 和 shiny 应用中。环境&软件...原创 2020-02-05 13:41:09 · 11892 阅读 · 2 评论 -
R语言--并行计算(parallel、foreach包)
R语言是单核计算语言,在数据建模或计算过程中,常常出现相同或相似任务的重复计算,一般操作是for循环处理或采用apply族函数处理,为了更快完成计算,采用并行计算是更优的选择。本文采用R语言中的parallel包与foreach包实现并行计算,并针对单变量并行和多变量并行计算这两个常用场景做了函数封装。0.环境&软件 win1064bit R3.6.1...原创 2020-01-06 22:26:09 · 11398 阅读 · 0 评论