R语言
飞猫侠
渴望一流技术的三流技术宅
展开
-
R语言编程技术(1)
R 语言作为我工作使用的第一门语言(有点初恋女友的感觉,羞涩), 所以颇有感情,也是它让我认识到了很多勤奋好学又独立的优秀的妹纸们(可惜她们都不是我的女票,泪崩),但是在现在 python 如日中天,连 kaggle 上的数据科学家们八成,甚至是九成都在使用 python 了,所以不能怪哥移情别恋,是现实太残酷。目前个人觉得是 Rstudio 公司撑起了 R 的商业应用,虽然微软爸爸也之前也收购过原创 2017-08-24 11:29:14 · 3434 阅读 · 1 评论 -
特征工程(1)
最近在处理特征,有点拙见,分享出来,欢迎各路神仙拍砖指正。 在此以 iris 数据集为例子来说明问题:# 加载数据集到全局环境data(iris) # 加载rpart来构建一颗决策树library(rpart)my_tree <- rpart(Species~., data = iris)# n= 150 ## node), split, n, loss, yval, (y原创 2017-09-17 19:36:58 · 849 阅读 · 2 评论 -
Keras with R (RNN)
之前学习过了,MLP,CNN,所以RNN也不能落下。下面以经典数据集IMDB来训练一个RNN模型。IMDB是25,000条影评数据,被标记为正面/负面两种评价。影评已被预处理为词下标构成的序列。关于词下标构成的序列,即是将词从词典中查找对应的索引构成的序列。 eg: 上图即表示了一个序列样本,序列中的数字代表词在词典中的索引,若以该索引...原创 2018-08-12 15:09:34 · 3500 阅读 · 0 评论 -
NLP ----- TF-IDF
作为文本处理比较经典的方法,本文通过手动构造 tf_idf 矩阵和 R 的 tm包当中提供的 DocumentTermMatrix 函数方法的构造进行对比,来一种比较直观的解读. 1.构造原始文本数据 doc_1 <- "见鬼了"doc_2 <- "我见鬼了"doc_3 <- "我真的见鬼了"text_data <- c(doc_1, doc_2, doc_...原创 2018-05-16 20:56:03 · 1862 阅读 · 2 评论 -
Keras with R (CNN)
MLP 本身已经可以达到很不错的准确率了,但是随着模型的迭代次数增加,精度基本趋向于稳定而不再有更多变化。这时候模型本身就遇到了瓶颈,需要更高级深入的模型来做更专业的工作。 CNN 基于这样的问题被开发设计出来,专门解决图像识别的问题。 基于之前的模型,加入卷积层,池化层使用 R 语言作为控制语言来训练一个 CNN , 看看效果。library(keras)# downloa原创 2017-12-12 02:34:45 · 1054 阅读 · 1 评论 -
Keras with R (MLP)
Keras 是一款很不错的深度学习框架,因为把深度学习需要用到的组件都封装更高级,可以很方便自由组合调用,这里贴出中文学习的文档 http://keras-cn.readthedocs.io/en/latest/ , 英文好的童鞋可直接阅读原生态的英文文档。 本来是支持 python 的框架,现在也支持 R , 直接如下命令即可完成安装。 install.packages("Ker原创 2017-12-11 22:31:17 · 1952 阅读 · 0 评论 -
R语言编程技术(4)
R也属于一种面向对象语言,万物皆为对象,只是它毕竟最初设计不是为了面向工程,而是面向科学研究,故而它比较奇葩,与我们大多数主流语言的面向对象设计有所不同,它是以一种名为S3系统来作面向对象架构设计,几个基础的R包都是基于S3系统设计,很多第三方包也基于S3对象系统。(S4,RC, R6这些更高级的系统这里不做讨论了)S3面向对象系统 S3面向对象系统非常简洁有效,它本质就是一种函数的泛原创 2017-10-16 11:02:01 · 2258 阅读 · 0 评论 -
R语言编程技术(3)
上节反复的强调了 数据结构 对于编程的重要性,尽管 R语言 不算工程性语言,但是如果熟练掌握了它内置的数据结构,那么做起数据处理的任务就能游刃有余,你并不需要知道什么是 链表 ,什么是 二叉树 ,什么是 散列表 , 但是你要知道什么是 向量 ,什么是 列表 ,什么是 矩阵 ,什么是 数据框。(好像还少了个什么?),没错就是这节的主角 多维数组 , 之前按照数据维度和结构特性将 R语言 的 数原创 2017-08-27 23:03:33 · 2452 阅读 · 0 评论 -
R语言编程技术(2)
上节简单的介绍了 R 语言的三种特性,这节讨论编程技术的核心技术 数据结构 ,不要被吓到了。(这个逼装灰常好, 哈哈)。 一提到数据结构,第一印象多半是大学时代折磨人的课程,事实上 R 语言内置的数据结构是被底层语言封装过的,所以没有复杂的指针指向指的你发晕,也不会一不小心造成了内存泄漏,这就是使用高级语言的好处,但是也注定了调包侠的命运,知其然而不知所以然(悲哀!呜呜~)。 R原创 2017-08-24 19:27:15 · 2965 阅读 · 0 评论 -
特征工程(2)
关于异常值的处理是特征处理过程一项比较重要的环节,异常值的存在会对数据敏感的模型的预测结果造成偏差,因此对异常值的处理显得尤为的重要。 异常值有单变量处理,多变量处理之分,单变量处理相对比较容易,盒图就是很好的工具,多变量的异常值处理就相对比较麻烦,因为对于异常值的定义不如单变量那么简单明确。单变量 以iris数据集为例子# 加载数据data(iris)# 探索iris原创 2017-10-15 18:20:12 · 1962 阅读 · 1 评论