前言
数据挖掘结课设计除了要剖析一个分类程序,还得会使用一个开源系统。下面介绍几个常见的开源系统及数据源:
几个开放的数据源
UCI Machine Learning Repository
https://archive.ics.uci.edu/ml/datasets.php
Kaggle Datasets
https://www.kaggle.com/datasets
微软数据集
KDD Cup (large data sets for data mining)
http://www.kdnuggets.com/datasets/kddcup.html
亚马逊数据集
https://registry.opendata.aws/
公共数据集资源收集
https://github.com/awesomedata/awesome-public-datasets
六个机器学习项目
https://elitedatascience.com/machine-learning-projects-for-beginners
我一开始选择尝试Scikit-Learn库,本文主要讲我安装的过程及遇到的一些问题。
安装环境
scikit-learn库是python做机器学习最常用的库。首先我们需要安装Python环境,去Python官网https://www.python.org/选择相应的版本下载:我选择的是python-3.7.2-amd64,接下来一路下一步安装,注意将Python加入环境变量中。已经安装过Python的,记住自己的版本号就OK了。
在安装Scikit-learn库之前,还需要安装必要的依赖包Numpy、Scipy、Matlotlib包。安装python第三方库时总会出现各种兼容问题,版本需要一致,安装顺序也很重要。如果这些包与Python版本不一致,需要先卸载掉。
pip uninstall scikit-learn
pip uninstall numpy
pip uninstall scipy
pip uninstall matplotlib
下载安装包
不建议使用”pip install package”,它有时下载的包与python版本不一致;而是到官网下载相应版本。https://www.lfd.uci.edu/~gohlke/pythonlibs/#numpy https://www.lfd.uci.edu/~gohlke/pythonlibs/#scipy https://www.lfd.uci.edu/~gohlke/pythonlibs/#matplotlib https://www.lfd.uci.edu/~gohlke/pythonlibs/#scikit-learn
其中cp37表示CPython 3.7版本,win_amd64指的是64位版本。
安装
运行Windows 命令行运行程序cmd,并将当前目录用cd命令转到保存上面.whl文件所在的目录下,使用pip install xxx.whl,依次安装Numpy、Scipy、Matplotlib包,再安装Scikit-Learn。
安装Numpy
使用pip install numpy-1.15.4+mkl-cp37-cp37m-win_amd64.whl ,出现错误:
改为:pip install --user numpy-1.15.4+mkl-cp37-cp37m-win_amd64.whl 即可
安装Matplotlib
使用pip install matplotlib-2.2.4-cp37-cp37m-win_amd64.whl 时发生错误,安装很长时间,也不知道什么原因就是安装不了。改为pip3.7 install matplotlib-2.2.4-cp37-cp37m-win_amd64.whl 即可
在python的交互式命令行中,输入下面代码,没有出现错误,即安装成功。