1.数据挖掘简介
数据挖掘是指让计算机通过数据做出决策,决策可以是预测天气,拦截垃圾邮件,推荐商品,匹配有共同语言的朋友.......简言之,就是用数据训练计算机,发现数据之间的关系,挖掘数据的潜在价值。
数据挖掘的第一步是创建数据集,使用数据集描述具体的世界,计算机通过数据集来接触现实世界。数据集包含两部分:表示真实世界的样本和描述数据集中样本的特征;数据挖掘的第二部是创建和调试数据挖掘算法,通过参数调试,尽可能的优化算法,使计算机可以尽可能做出有利的决策。举例:在以人为样本的数据集中,身高和体重就是特征。
2.使用Python和Ipython Notebook,安装scikit-learn机器学习库
ipython是一个优秀的解释器,相对python默认的解释器具有更强的功能,IPython Notebook非常适合做数据分析,可以允许我们在web浏览器中编写程序。 先安装pip
sudo apt-get install python-pip
再安装ipython和ipython-notebook
sudo apt-get install ipython
sudo apt-get install ipython-notebook
启动ipython-notebook
ipython notebook
scikit-learn机器学习库使Python的机器学习库,包含大量的机器学习算法,数据集,工具和框架,安装之前需要先安装scipy和numpy。
pip install scikit-learn