python机器学习简单介绍

机器学习

概论

  1. 基本分类:

    • 监督学习(分类,回归)
    • 无监督学习(聚类,降维)
    • 半监督学习(部分标注数据和大量未标注的数据)
    • 强化(增强)学习,深度学习(基于神经网络的分类和回归)
    • 迁移学习(在缺少数据的情况下,将其他领域知识迁移到另一个领域)
    • 结构化学习(输出的是对象,除了回归和分类以外的问题,如信息检索,对象匹配)
  2. Sickit-learn常用函数分类

    分类应用算法
    分类(Classification)异常检测,图像识别等KNN,SVM
    聚类(Clustering)图像分割,群体划分等K-means,谱聚类
    回归(Regression)价格预测,趋势预测等线性回归,SVR
    降维(Dimension Reduction)可视化PCA,NMF
  3. 相关书籍和课程:

    • 机器学习周志华,
    • PRML-Bishop 在线课程:
    • 吴恩达,Stanford cs231n,Reinforcement learning David silver
  4. 分类任务(Classification):模型的输出是 一个向量(Vector)

    • 回归函数封装的模块

      • sklearn.linear_model(线性函数为主)
      • sklearn.preprocessing(非线性函数为主)
    • 分类算法的应用:

      • 金融:贷款是否批准进行评估
      • 医疗诊断:判断一个肿瘤是恶性还是良性
      • 欺诈检测
      • 网页分析:判断网页的类别
    分类模型加载模块使用方式
    最近邻算法neighbors.NearestNeighbordfit()利用数据进行训练,predict函数
    支持向量机svm.SVC
    朴素贝叶斯naive_bayes.GaussianNB
    决策树tree.DecisionTreeClassifiercross_val_score使用10则验证交叉,利用fit和predict进行验证
    集成方法ensemble.BaggingClassifier
    神经网络neural_network.MLPClassifier
  5. 回归任务(Regression):主要以linear_model模块,模型输出的是一个数值(scalar)

    回归模型加载模块
    岭回归linear_model.Ridge
    lasso回归linear_model.Lasso
    弹性网络linear_model.ElasticNet
    最小角回归linear_model.Lars
    贝叶斯回归linear_model.BayesianRidege(高斯朴素贝叶斯分类,多项式模型的朴素贝叶斯,多元伯努利朴素贝叶斯)
    逻辑回归linear_model.LogisticRegression
    多项式回归prprocessing.PolynomialFeatures
  6. 聚类任务:主要以cluster模块为主,欧式距离,曼哈顿距离,马氏距离,余弦相似度

    聚类方法加载模块
    K-meanscluster.KMeans
    AP聚类cluster.AffinityPropagation
    均值漂移cluster.MeanShift
    层次聚类cluster.AgglomerativeClustering
    DBSCANcluster.DBSCAN
    BIRCHcluster.Birth
    谱聚类cluster.SpectralClustering

    sklearn.cluster

    算法名称参数可扩展性相似性度量
    K-means聚类个数大规模数据点间距
    DBSCAN邻域大小大规模数据点间距
    Gaussian Mixture聚类个数及其他参数复杂度高,不适合处理大规模数据马氏距离
    Birch分支因子,阀值等其他超参大规模数据两点间的欧式距离
  7. 降维任务:主要以decomposition模块为主,数据的可视化和精简数据

    降维任务加载模块
    主成分分析decomposition.PCA
    截断SVD和LSAdecomposition.TruncatedSVD
    字典学习decomposition.SparseCoder
    因子分析decomposition.FactorAnalsis
    独立成分分析decomposition.FastICA
    非负矩阵分解decomposition.NMF
    LDAdecomposition.LatentDirichletAllocation
    算法名称参数可扩展性适用任务
    PCA所降维度以及其他超参大规模数据信号处理等
    FastICA所降维度以及其他超参超大规模数据图形图像特征提取
    NMF所降维度以及其他超参大规模数据图形图像特征提取
    LDA所降维度以及其他超参大规模数据文本数据,主题挖掘
  8. 训练数据和测试数据

    a. 训练集(training set):构成监督学习经验的案例集合;

    b. 测试集(test set):评估程序效果的案例集合;

    c. 验证集(validation set):调整超参数变量的案例集合;超参数变量控制模型如何学习;

    d. 监督学习的观测值分成三部分:训练集(50%),测试集(50%),验证集(25%);

    e. 过度拟合(over-fitting)vs欠拟合:过度拟合是指能够在训练集上获得较好地拟合的假设,在训练集之外的案例集合却不能很好的拟合数据;原因是存在噪音或者训练数据太少;正则化(regularization)可以减轻过度拟合程度;

    f. “放入的是垃圾,出来的也是垃圾”:监督学习需要用有代表性、标签正确的数据集进行训练;多而不好的数据,训练效果不一定比少而好的数据好。

    g. 交叉验证:用相同的数据对算法进行多次训练和检验;适用于训练集不够的时候;数据训练集分成N块,算法用N-1块进行训练,再用最后一块进行测试

  9. 效果评估-偏差和方差

a. 监督学习中,两个基本指标评估预测误差:偏差(bias)和方差(variance);高方差是过度拟合了训练集数据,高偏差则是拟合不够的表现;

b. 偏差-方差均衡:现在中二者具有背反特征,降低一个指标,另一个指标会增加;

c. 无监督学习:没有预测误差,评估数据结构的一些属性;评估方法针对于具体的任务;

d. 无监督评估举例-恶性肿瘤预测(真阳性TP(true positive)+真阴性TN(true negative)+假阳性FP(false positive )+假阴性FN(false negative)):

准确度评估accuracy=(TP+TN)/(TP+TN+FP+FN);真阴性和真阳性即是预测都在先前的分类中

恶性肿瘤精确度precision=TP/(TP+FP)

召回率recall=TP/(TP+FN)

召回率比其他指标更满足实际要求;

  1. 岭回归:解决单纯线性回归中稀疏矩阵X^t X得到的值的失真问题

    优化目标:
    a r g m i n ∣ ∣ X t w − y ∣ ∣ 2 + a ∣ ∣ w ∣ ∣ 2 argmin||X^tw-y||^2 + a||w||^2 argminXtwy2+aw2

    对应的矩阵求解方法:

    w = ( X T X + a i ) − 1 X T Y w=(X^TX+ai)^-1X^TY w=XTX+ai1XTY

  2. 强化学习就是程序或智能体(agent)通过与环境不断的进行交互学习,学习的目标就是使累计回报最大化;强化学习是一种试错学习,因其在各种状态(环境)下需要尽量尝试所有可以选择的动作,通过环境给出的反馈来判断动作的优劣,最终获得环境和最优动作的映射关系(即策略)

  3. 马尔可夫决策过程(MDP)

    MDP基本元素
    \s\epsilon
    S:有限状态state集合,s表示某个特定的状态
    a\epsilon A:
    :有限动作action集合,a表示某个特定的动作
    T(S,a,S")~Pr(s’|s,a)
    状态转移模型,根据当前状态s和动作a预测下一个状态s,这里的P表示从s采取行动a转移到s‘的概率。

  4. 机器学习大量数据的工具:LibLinear和spark Mylib

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值