python 数据挖掘 库_Python 数据挖掘 工具包整理

连接器与io

数据库

类别PythonR

MySQL

mysql-connector-python(官方)

RMySQL

Oracle

cx_Oracle

ROracle

MongoDB

pymongo

RMongo, rmongodb

ODBC

pyodbc

RODBC

IO类

类别PythonR

excel

xlsxWriter, pandas.(from/to)_excel, openpyxl

openxlsx::read.xlsx(2), xlsx::read.xlsx(2)

csv

csv.writer

read.csv(2), read.table

json

json

jsonlite

图片

PIL

jpeg, png, tiff, bmp

统计类

描述性统计

类别PythonR

描述性统计汇总

scipy.stats.descirbe

summary

均值

scipy.stats.gmean(几何平均数), scipy.stats.hmean(调和平均数), numpy.mean, numpy.nanmean, pandas.Series.mean

mean

中位数

numpy.median, numpy.nanmediam, pandas.Series.median

median

众数

scipy.stats.mode, pandas.Series.mode

未知

分位数

numpy.percentile, numpy.nanpercentile, pandas.Series.quantile

quantile

标准差

scipy.stats.std, scipy.stats.nanstd, numpy.std, pandas.Series.std

sd

方差

numpy.var, pandas.Series.var

var

变异系数

scipy.stats.variation

未知

协方差

numpy.cov, pandas.Series.cov

cov

(Pearson)相关系数

scipy.stats.pearsonr, numpy.corrcoef, pandas.Series.corr

cor

峰度

scipy.stats.kurtosis, pandas.Series.kurt

e1071::kurtosis

偏度

scipy.stats.skew, pandas.Series.skew

e1071::skewness

直方图

numpy.histogram, numpy.histogram2d, numpy.histogramdd

未知

回归

类别PythonR

普通最小二乘法回归(ols)

statsmodels.ols, sklearn.linear_model.LinearRegression

lm,

广义线性回归(gls)

statsmodels.gls

nlme::gls, MASS::gls

假设检验

类别PythonR

t检验

statsmodels.stats.ttest_ind, statsmodels.stats.ttost_ind, statsmodels.stats.ttost.paired; scipy.stats.ttest_1samp, scipy.stats.ttest_ind, scipy.stats.ttest_ind_from_stats, scipy.stats.ttest_rel

t.test

Pearson相关系数检验

scipy.stats.pearsonr

cor.test

时间序列

类别PythonR

AR

statsmodels.ar_model.AR

ar

ARIMA

statsmodels.arima_model.arima

arima

VAR

statsmodels.var_model.var

未知

SVM(支持向量机)

类别PythonR

支持向量分类器(SVC)

sklearn.svm.SVC

e1071::svm

非支持向量分类器(nonSVC)

sklearn.svm.NuSVC

未知

线性支持向量分类器(Lenear SVC)

sklearn.svm.LinearSVC

未知

基于临近

类别PythonR

k-临近分类器

sklearn.neighbors.KNeighborsClassifier

未知

半径临近分类器

sklearn.neighbors.RadiusNeighborsClassifier

未知

临近重心分类器(Nearest Centroid Classifier)

sklearn.neighbors.NearestCentroid

未知

贝叶斯

类别PythonR

朴素贝叶斯

sklearn.naive_bayes.GaussianNB

e1071::naiveBayes

多维贝叶斯(Multinomial Naive Bayes)

sklearn.naive_bayes.MultinomialNB

未知

伯努利贝叶斯(Bernoulli Naive Bayes)

sklearn.naive_bayes.BernoulliNB

未知

决策树

类别PythonR

决策树分类器

sklearn.tree.DecisionTreeClassifier

tree::tree, party::ctree

决策树回归器

sklearn.tree.DecisionTreeRegressor

tree::tree, party::tree

随机森林分类器

sklearn.ensemble.RandomForestClassifier

randomForest::randomForest, party::cforest

随机森林回归器

sklearn.ensemble.RandomForestRegressor

randomForest::randomForest, party::cforest

聚类

类别PythonR

kmeans

scipy.cluster.kmeans.kmeans

kmeans::kmeans

分层聚类

scipy.cluster.hierarchy.fcluster

(stats::)hclust

关联规则

类别PythonR

apriori算法

apriori(可靠性未知,不支持py3), PyFIM(可靠性未知,不可用pip安装)

arules::apriori

FP-Growth算法

fp-growth(可靠性未知,不支持py3), PyFIM(可靠性未知,不可用pip安装)

未知

神经网络

类别PythonR

神经网络

neurolab.net, keras.*

nnet::nnet, nueralnet::nueralnet

深度学习

keras.*

不可靠包居多以及未知

文本基本操作

类别PythonR

tokenize

nltk.tokenize(英), jieba.tokenize(中)

tau::tokenize

stem

nltk.stem

RTextTools::wordStem, SnowballC::wordStem

stopwords

stop_words.get_stop_words

tm::stopwords, qdap::stopwords

中文分词

jieba.cut, smallseg, Yaha, finalseg, genius

jiebaR

TFIDF

gensim.models.TfidfModel

未知

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值