Scikit-Learn是用Python开发的机器学习库,其中包含大量机器学习算法、数据集,是数据挖掘方便的工具。
Scikit-Learn的安装可使用pip工具,在安装前需要安装NumPy和SciPy,打开一个命令行中端并输入:
$pip install -U scikit-learn
基本操作:
1.数据加载:
对于csv文件,pandas库提供的pandas.read_csv能够快速的加载并根据提供的参数可进行数据的处理,生成DataFrame:
import pandas as pd
df=pd.read_csv('data.csv')
http://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_csv.html(pandas api)
对于具有一定格式的文本文件或二进制文件,可使用NumPy