R
文章平均质量分 73
就从今天开始_ll
这个作者很懒,什么都没留下…
展开
-
R包之tm:文本挖掘包
本文参考文档: tm的使用指南 : http://mirror.bjtu.edu.cn/cran/web/packages/tm/vignettes/tm.pdftm手册 : http://mirror.bjtu.edu.cn/cran/web/packages/tm/tm.pdf 简介 tm 即text mining,是用来做文本挖掘的一个R包,是一个进行自然语言处理的基础包。转载 2017-01-12 09:39:23 · 1057 阅读 · 0 评论 -
在R中使用XGBoost算法
介绍 你知道 XGBoost 算法是一种现在在数据科学竞赛的获胜方案很流行的算法吗? 那么,他比传统的随机森林和神经网络算法强在哪里呢?广义上来说,它在效率,准确性,可行性都更有优势(接下来我们将会详细讨论)。 在最近的几年中,模型预测已经变得越来越快速和准确了。我记得我曾花费数个小时在为某个模型构建特征工程上,模型却仅仅提升了几个百分点。 现在,这些大量困难的问题都被更好的算法所解决。转载 2017-09-25 15:30:09 · 1154 阅读 · 0 评论 -
xgboost: 速度快效果好的 boosting 模型
xgboost: 速度快效果好的 boosting 模型 何通 关键词:boosting; Gradient Boosting Machine; xgboost; 数据建模预测 本文作者:何通,SupStat Inc(总部在纽约,中国分部为北京数博思达信息科技有限公司)数据科学家,加拿大 Simon Fraser University 计算机学院研究生,研究兴趣为数据挖掘和生物信息学转载 2017-09-25 15:40:13 · 856 阅读 · 0 评论 -
SparkR初体验
原文地址http://blog.csdn.net/dr_guo/article/details/51377784 SparkR初体验 2016年05月11日 20:41:19 13072 突然有个想法,R只能处理百万级别的数据,如果R能运行在spark上多好!搜了下发现13年SparkR这个项目就启动了,感谢美帝! 1.你肯定得先装个sp转载 2017-10-19 15:33:44 · 3787 阅读 · 0 评论 -
R语言-data.table包使用(方便自己使用参考)
R语言-data.table包它的fread函数读取1G的CSV文件才用了20s左右。其他对data.frame的操作,也快了N倍特点data.table(DT)的操作语句类似于SQL,DT[i, j, by]中的i, j, by 对应着SQL语句的 i=where, j=select, by=group by。所以DT中的i, j并不是只是像data.frame只代表着行列,它更加的灵活多变。符...转载 2018-02-11 10:14:55 · 1213 阅读 · 0 评论 -
R语言data.table速查手册
原文链接:http://blog.csdn.net/a358463121/article/details/51910062介绍R中的data.table包提供了一个data.frame的高级版本,让你的程序做数据整型的运算速度大大的增加。data.table已经在金融,基因工程学等领域大放光彩。他尤其适合那些需要处理大型数据集(比如 1GB 到100GB)需要在内存中处理数据的人。不过这个包的一些...转载 2018-02-12 14:57:26 · 346 阅读 · 0 评论