(转)Python 数据挖掘 工具包整理

连接器与io

数据库

类别PythonR
MySQLmysql-connector-python(官方)RMySQL
Oraclecx_OracleROracle
MongoDBpymongoRMongo, rmongodb
ODBCpyodbcRODBC

IO类

类别PythonR
excelxlsxWriter, pandas.(from/to)_excel, openpyxlopenxlsx::read.xlsx(2), xlsx::read.xlsx(2)
csvcsv.writerread.csv(2), read.table
jsonjsonjsonlite
图片PILjpeg, png, tiff, bmp

统计类

描述性统计

类别PythonR
描述性统计汇总scipy.stats.descirbesummary
均值scipy.stats.gmean(几何平均数), scipy.stats.hmean(调和平均数), numpy.mean, numpy.nanmean, pandas.Series.meanmean
中位数numpy.median, numpy.nanmediam, pandas.Series.medianmedian
众数scipy.stats.mode, pandas.Series.mode未知
分位数numpy.percentile, numpy.nanpercentile, pandas.Series.quantilequantile
标准差scipy.stats.std, scipy.stats.nanstd, numpy.std, pandas.Series.stdsd
方差numpy.var, pandas.Series.varvar
变异系数scipy.stats.variation未知
协方差numpy.cov, pandas.Series.covcov
(Pearson)相关系数scipy.stats.pearsonr, numpy.corrcoef, pandas.Series.corrcor
峰度scipy.stats.kurtosis, pandas.Series.kurte1071::kurtosis
偏度scipy.stats.skew, pandas.Series.skewe1071::skewness
直方图numpy.histogram, numpy.histogram2d, numpy.histogramdd未知

回归

类别PythonR
普通最小二乘法回归(ols)statsmodels.ols, sklearn.linear_model.LinearRegressionlm,
广义线性回归(gls)statsmodels.glsnlme::gls, MASS::gls

假设检验

类别PythonR
t检验statsmodels.stats.ttest_ind, statsmodels.stats.ttost_ind, statsmodels.stats.ttost.paired; scipy.stats.ttest_1samp, scipy.stats.ttest_ind, scipy.stats.ttest_ind_from_stats, scipy.stats.ttest_relt.test
Pearson相关系数检验scipy.stats.pearsonrcor.test

时间序列

类别PythonR
ARstatsmodels.ar_model.ARar
ARIMAstatsmodels.arima_model.arimaarima
VARstatsmodels.var_model.var未知

SVM(支持向量机)

类别PythonR
支持向量分类器(SVC)sklearn.svm.SVCe1071::svm
非支持向量分类器(nonSVC)sklearn.svm.NuSVC未知
线性支持向量分类器(Lenear SVC)sklearn.svm.LinearSVC未知

基于临近

类别PythonR
k-临近分类器sklearn.neighbors.KNeighborsClassifier未知
半径临近分类器sklearn.neighbors.RadiusNeighborsClassifier未知
临近重心分类器(Nearest Centroid Classifier)sklearn.neighbors.NearestCentroid未知

贝叶斯

类别PythonR
朴素贝叶斯sklearn.naive_bayes.GaussianNBe1071::naiveBayes
多维贝叶斯(Multinomial Naive Bayes)sklearn.naive_bayes.MultinomialNB未知
伯努利贝叶斯(Bernoulli Naive Bayes)sklearn.naive_bayes.BernoulliNB未知

决策树

类别PythonR
决策树分类器sklearn.tree.DecisionTreeClassifiertree::tree, party::ctree
决策树回归器sklearn.tree.DecisionTreeRegressortree::tree, party::tree
随机森林分类器sklearn.ensemble.RandomForestClassifierrandomForest::randomForest, party::cforest
随机森林回归器sklearn.ensemble.RandomForestRegressorrandomForest::randomForest, party::cforest

聚类

类别PythonR
kmeansscipy.cluster.kmeans.kmeanskmeans::kmeans
分层聚类scipy.cluster.hierarchy.fcluster(stats::)hclust

关联规则

类别PythonR
apriori算法apriori(可靠性未知,不支持py3), PyFIM(可靠性未知,不可用pip安装)arules::apriori
FP-Growth算法fp-growth(可靠性未知,不支持py3), PyFIM(可靠性未知,不可用pip安装)未知

神经网络

类别PythonR
神经网络neurolab.net, keras.*nnet::nnet, nueralnet::nueralnet
深度学习keras.*不可靠包居多以及未知

文本基本操作

 

 

类别

PythonR
tokenizenltk.tokenize(英), jieba.tokenize(中)tau::tokenize
stemnltk.stemRTextTools::wordStem, SnowballC::wordStem
stopwordsstop_words.get_stop_wordstm::stopwords, qdap::stopwords
中文分词jieba.cut, smallseg, Yaha, finalseg, geniusjiebaR
TFIDFgensim.models.TfidfModel未知

 

本文来源:Python 数据挖掘 工具包整理

 

 

 

 

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值