python apriori算法 sklearn_R 和 Python (numpy scipy pandas) 用于统计学分析,哪个更好?...

可以两个一起学,参见我的博文,可以做个索引。

Python 和 R 数据分析/挖掘工具互查

写在前面

在此总结一些在数据分析/挖掘中可能用到的功能,方便大家索引或者从一种语言迁移到另一种。当然,这篇博客还会随时更新(不会另起一篇,为了方便大家索引),请大家如果有需要收藏到书签中。如果大家还知道哪些常用的命令,也可以在评论中回复我。我可以添加进来,方便更多地人更方便的检索。也希望大家可以转载。

如果大家已经熟悉python和R的模块/包载入方式,那下面的表查找起来相对方便。python在下表中以模块.的方式引用,部分模块并非原生模块,请使用

pip install *

安装;同理,为了方便索引,R中也以::表示了函数以及函数所在包的名字,如果不含::表示为R的默认包中就有,如含::,请使用

install.packages("*")

安装。连接器与io数据库类别PythonRMySQLmysql-connector-python(官方)RMySQLOraclecx_OracleROracleRedisredisrredisMongoDBpymongoRMongo, rmongodbneo4jpy2neoRNeo4jCassandracassandra-driverRJDBCODBCpyodbcRODBCJDBC未知[Jython Only]RJDBCIO类类别PythonRexcelxlsxWriter, pandas.(from/to)_excel, openpyxlopenxlsx::read.xlsx(2), xlsx::read.xlsx(2)csvcsv.writerread.csv(2), read.tablejsonjsonjsonlite图片PILjpeg, png, tiff, bmp统计类描述性统计类别PythonR描述性统计汇总scipy.stats.descirbesummary均值scipy.stats.gmean(几何平均数), scipy.stats.hmean(调和平均数), numpy.mean, numpy.nanmean, pandas.Series.meanmean中位数numpy.median, numpy.nanmediam, pandas.Series.medianmedian众数scipy.stats.mode, pandas.Series.mode未知分位数numpy.percentile, numpy.nanpercentile, pandas.Series.quantilequantile经验累积函数(ECDF)statsmodels.tools.ECDFecdf标准差scipy.stats.std, scipy.stats.nanstd, numpy.std, pandas.Series.stdsd方差numpy.var, pandas.Series.varvar变异系数scipy.stats.variation未知协方差numpy.cov, pandas.Series.covcov(Pearson)相关系数scipy.stats.pearsonr, numpy.corrcoef, pandas.Series.corrcor峰度scipy.stats.kurtosis, pandas.Series.kurte1071::kurtosis偏度scipy.stats.skew, pandas.Series.skewe1071::skewness直方图numpy.histogram, numpy.histogram2d, numpy.histogramdd未知回归(包括统计和机器学习)类别PythonR普通最小二乘法回归(ols)statsmodels.ols, sklearn.linear_model.LinearRegressionlm,广义线性回归(gls)statsmodels.glsnlme::gls, MASS::gls分位数回归(Quantile Regress)statsmodels.QuantRegquantreg::rq岭回归sklearn.linear_model.RidgeMASS::lm.ridge, ridge::linearRidgeLASSOsklearn.linear_model.Lassolars::lars最小角回归sklearn.linear_modle.LassoLarslars::lars稳健回归statsmodels.RLMMASS::rlm假设检验类别PythonRt检验statsmodels.stats.ttest_ind, statsmodels.stats.ttost_ind, statsmodels.stats.ttost.paired; scipy.stats.ttest_1samp, scipy.stats.ttest_ind, scipy.stats.ttest_ind_from_stats, scipy.stats.ttest_relt.testks检验(检验分布)scipy.stats.kstest, scipy.stats.kstest_2sampks.testwilcoxon(非参检验,差异检验)scipy.stats.wilcoxon, scipy.stats.mannwhitneyuwilcox.testShapiro-Wilk正态性检验scipy.stats.shapiroshapiro.testPearson相关系数检验scipy.stats.pearsonrcor.test时间序列类别PythonRARstatsmodels.ar_model.ARarARIMAstatsmodels.arima_model.arimaarimaVARstatsmodels.var_model.var未知生存分析类别PythonRPH回归statsmodels.formula.api.phreg未知机器学习类回归

参见统计类分类器LDA、QDA类别PythonRLDAsklearn.discriminant_analysis.LinearDiscriminantAnalysisMASS::ldaQDAsklearn.discriminant_analysis.QuadraticDiscriminantAnalysisMASS::qdaSVM(支持向量机)类别PythonR支持向量分类器(SVC)sklearn.svm.SVCe1071::svm非支持向量分类器(nonSVC)sklearn.svm.NuSVC未知线性支持向量分类器(Lenear SVC)sklearn.svm.LinearSVC未知基于临近类别PythonRk-临近分类器sklearn.neighbors.KNeighborsClassifier未知半径临近分类器sklearn.neighbors.RadiusNeighborsClassifier未知临近重心分类器(Nearest Centroid Classifier)sklearn.neighbors.NearestCentroid未知贝叶斯类别PythonR朴素贝叶斯sklearn.naive_bayes.GaussianNBe1071::naiveBayes多维贝叶斯(Multinomial Naive Bayes)sklearn.naive_bayes.MultinomialNB未知伯努利贝叶斯(Bernoulli Naive Bayes)sklearn.naive_bayes.BernoulliNB未知决策树类别PythonR决策树分类器sklearn.tree.DecisionTreeClassifiertree::tree, party::ctree决策树回归器sklearn.tree.DecisionTreeRegressortree::tree, party::tree随机森林分类器sklearn.ensemble.RandomForestClassifierrandomForest::randomForest, party::cforest随机森林回归器sklearn.ensemble.RandomForestRegressorrandomForest::randomForest, party::cforest聚类类别PythonRkmeansscipy.cluster.kmeans.kmeanskmeans::kmeans分层聚类scipy.cluster.hierarchy.fcluster(stats::)hclust包聚类(Bagged Cluster)未知e1071::bclustDBSCANsklearn.cluster.DBSCANdbscan::dbsanBirchsklearn.cluster.Birch未知K-Medoids聚类pyclust.KMedoids(可靠性未知)cluster.pam关联规则类别PythonRapriori算法apriori(可靠性未知,不支持py3), PyFIM(可靠性未知,不可用pip安装)arules::aprioriFP-Growth算法fp-growth(可靠性未知,不支持py3), PyFIM(可靠性未知,不可用pip安装)未知神经网络类别PythonR神经网络neurolab.net, keras.*nnet::nnet, nueralnet::nueralnet深度学习keras.*不可靠包居多以及未知当然,theano模块值得一提,但本质theano包的设计并非在神经网络,所以不归于此类。文本、NLP基本操作类别PythonRtokenizenltk.tokenize(英), jieba.tokenize(中)tau::tokenizestemnltk.stemRTextTools::wordStem, SnowballC::wordStemstopwordsstop_words.get_stop_wordstm::stopwords, qdap::stopwords中文分词jieba.cut, smallseg, Yaha, finalseg, geniusjiebaRTFIDFgensim.models.TfidfModel未知主题模型类别PythonRLDAlda.LDA, gensim.models.ldamodel.LdaModeltopicmodels::LDALSIgensim.models.lsiModel.LsiModel未知RPgensim.models.rpmodel.RpModel未知HDPgensim.models.hdpmodel.HdpModel未知值得留意的是python的新第三方模块,spaCy与其他分析/可视化/挖掘/报表工具的交互类别PythonRwekapython-weka-wrapperRWekaTableautableausdkRserve(实际是R的服务包)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值