机器学习系列(一)——理论基础

本文介绍了机器学习的基础知识,包括常用的工具如numpy、scikit-learn,以及机器学习流程,涉及数据处理、特征选择、模型训练与测试、模型优化。通过学习曲线探讨了过拟合和欠拟合的问题,并提出评估模型性能的方法,如查准率、召回率和F1分数。
摘要由CSDN通过智能技术生成

  机器学习是一个计算机程序,针对某个特定的任务,从经验(即数据,谁的数据规模大、质量好,谁就占据了机器学习个人工智能领域最有利的资本。)中学习,并且越做越好。

机器学习工具

  :numpy、pandas、scikit-learn、matplotlib
  开发环境:Anaconda、Pycharm
  scikit-learn包含了几乎所有主流的机器学习算法,提供了一致的调用接口。详情可以参考官网文档:http://scikit-learn.org

机器学习流程

  1. 数据采集和标注

  2. 数据预处理
      缺失值、异常值和重复值的处理,将不适合进入机器学习模型的数据处理掉。缺失值、异常值和重复值的处理,将不适合进入机器学习模型的数据处理掉。

  3. 特征选择
      基于业务背景人工选择特征、基于模型自动选择特征。

  4. 模型选择
      scikit-learn官网提供了一个模型速查表,针对几个简单问题就可以选择一个相对合适的模型。
    模型速查表

  5. 模型训练与测试
      模型训练需要把数据集分成训练集和测试集,训练集建模,测试集评价模型准确性。

#切分数据
from sklearn.cross_validation import train_test_split
x_train, x_test, y_train, y_test = train_test_split(X, Y, test_size=0.2, random_state=2)
#建立模型,训练
from sklearn import svm
clf = svm.SVC(C=1.0, kernel='rbf', gamma=0.5)
clf.fit(x_train, y_train)
#模型测试
clf.score(x_train, y_train)
clf
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值