不用纠结Python和R哪个好了,也不要纠结数据处理时用dplyr还是pandas。。。

我曾经非常纠结到底用Python还是R,我觉得我是一个非常专一的人,一旦用一门语言就想只用一门语言,因为R与Python之间换来换去不仅麻烦而且也几乎不现实。我也在网上看到有许多人也跟我一样纠结,为此许多大牛都写了多篇博文来详细地对比Python与R到底哪个更好一些。

这根本毫无意义。

Python与R没有绝对意义上的差距,两个语言基本上都是20多年了。不要跟我说Python比R快,也不要跟我说Pandas比dataframe强得多。两个语言只是方向不同,并没有什么太大的优劣。

我非常喜欢R的数据处理操作,这非常自然,intuitively,并且R的可视化与动态文本远超Python。然而Python有着最好的机器学习库sklearn和其他的支持。我曾经想,用R处理数据,处理完数据后导入Python进行机器学习建模。

这完全没有必要。我的建议是:

当你需要在R中完成模型时,就用R进行数据的处理;当你需要在Python中完成模型时,就用pandas进行数据处理。

比如说,你要进行时间序列、线性回归等统计模型时,就用R一站式完成。你要进行分类、逻辑回归、SVM等需要用到sklearn包,就用Python一站式完成。

因此tidyverse和pandas都要学。

展开阅读全文

没有更多推荐了,返回首页