1.数据挖掘模块说明
(1)numpy模块
高效处理数据、提供数组支持、很多模块都依赖他,比如pandas、scipy、matplotlib都依赖他,所以这个模块是基础。建立起功能与模块名的依赖关系
(2)pandas模块
主要用于进行数据探索和数据分析,用的频率会比较高。
(3)matplotlib模块
是一个作图模块,解决可视化问题。
(4)scipy模块
主要进行数值计算,同时支持矩阵运算,并提供了很多高等数据处理功能,比如积分、傅里叶变化、微分方程求解等。
(5)statsmodels模块
主要用于统计分析
(6)Gensim模块
主要用于文本挖掘
(7)sklearn模块
机械学习
(8)keras模块
深度学习
2.下载
下载网址:https://www.lfd.uci.edu/~gohlke/pythonlibs/
下载网址:https://www.lfd.uci.edu/~gohlke/pythonlibs/#numpy
3.安装
模块安装的顺序与方式建议如下:(出错概率比较小)同时安装
1、numpy、mkl(下载安装) 包的名字numpy-1.12.0b+mkl-cp35-cp35m-win_amd64.whl
2、pandas(网络安装)直接只用pip安装
3、matplotlib(网络安装)
4、scipy(下载安装)
5、statsmodels(网络安装)
6、Gensim(网络安装)
保证你的环境安装了python需要配置环境变量(用的python版本是3.5)
使用的命令行:
pip install numpy-1.12.0b+mkl-cp35-cp35m-win_amd64.whl
pip install pandas
pip install matplotlib
pip install scipy-0.18.1-cp35-cp35m-win_amd64.whl
pip install statsmodels
pip install gensim
全部安装之后,运行pip list命令,就可以查看安装完成的库
pip list
4.常见问题
如果同时安装了python2和python3的用户执行python命令可能会执行python2的命令
查看python的版本:在cmd下执行Python命令查看版本
如果出现的版本是2.X的版本,解决办法:
可以在环境变量中把2.X的环境变量剔除,只留下python3.x的即可