![](https://img-blog.csdnimg.cn/20201014180756919.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习入门
Alexander的鸭梨山大
偶尔分享一些乱七八糟的操作。。。。。。。。
展开
-
【机器学习入门】1、了解机器学习
总算可以踏踏实实的学习机器学习了,作者希望未来的研究方向是数据科学,但是碍于专业课的阻碍,一直没能系统的学习相关内容,如今有了充足的时间,希望我能在这个方向上能有所建树。注:本系列内容属于机器学习入门,是作者在跟着慕课视频学习的一些总结性笔记,偏向于算法的原理以及技术实现,只包含基础的机器学习算法,不涵盖神经网络和深度学习,且不包括真实世界数据。技术栈:Python3、scikit-learn...原创 2019-06-22 15:29:52 · 306 阅读 · 0 评论 -
【机器学习入门】2、机器学习算法分类
机器学习算法主要分为以下四类:监督学习、非监督学习、半监督学习和增强学习监督学习方法:分类任务、回归任务给机器的训练数据拥有“标记”或者“答案”。常见的分类任务中,每个样本都有标记。白话版解释:给人类已经分类好的数据进行机器训练。PS:本系列内容主要研究监督学习。非监督学习给机器的训练数据没有“标记”或者“答案”,与监督学习概念相反。方法:1、对没有“标记”的数据进行分类,叫做...原创 2019-06-22 16:01:27 · 374 阅读 · 0 评论 -
【机器学习入门】numpy的主要用法
1、numpy.array基本操作与Python的list差不多其他操作:np.zeros(10,dtype=int) # 生成10个0,类型为整型np.zeros(shape=(3,5),dtype=int) # 生成3行5列的类型为整型的矩阵 np.ones(10,dtype=int) # 生成10个5,整型np.full(shape=(3,5),fill_value=666)...原创 2019-06-26 12:47:50 · 247 阅读 · 0 评论 -
【机器学习入门】5、线性回归算法
特点思路简单解决回归问题结果具有可解释性蕴含机器学习中许多重要思想原创 2019-07-04 12:13:30 · 263 阅读 · 0 评论 -
【机器学习入门】3、其他学习分类
批量学习(离线学习):如果未加特殊说明都可以用批量学习,批量学习就是,训练好一个模型投入生产环境后,不再用样本进行优化。有点:简单缺点:每次重新批量学习,运算量巨大,在某些快速变化的环境中是不适应的在线学习:与批量学习差别在于,不浪费样例,不断进行优化;也适用于数据量巨大,完全无法批量学习的环境。优点:及时反映新的变化环境缺点:新的数据带来不好的变化,需要加强对数据的监控参数学习...原创 2019-06-24 17:16:46 · 160 阅读 · 0 评论 -
【机器学习入门】4、kNN算法(k近邻算法)
思想简单用于分类利用样本与数据的距离,进行预测,距离最小的最多的数据的类别,就是预测结果k的值为取最近的样本的个数距离计算:欧拉距离代码实现:# -*- coding: utf-8 -*-import numpy as npfrom math import sqrtfrom collections import Counterfrom sklearn.model_selecti...原创 2019-07-01 11:24:00 · 391 阅读 · 0 评论 -
【机器学习入门】6、梯度下降法
梯度下降法(Gradient Descent)不是机器学习方法,是一种基于搜索的最优化方法,最小化损失函数。过程类似球从碗口滚落到碗底。并不是所有函数都有唯一极值点局部最优解极小值点全局最优解最小值点在线性回归中使用梯度下降法模拟梯度下降法import numpy as npimport matplotlib.pyplot as pltplot_x = np.linsp...原创 2019-07-08 13:31:07 · 271 阅读 · 0 评论 -
【Spark】5、决策树二元分类
本节使用决策树二元分类分析StumbleUpon数据集,预测网页是暂时性的(ephemeral)或是长青的(evergreen),并调校参数找出最佳参数组合,提高预测准确度。StumbleUpon Evergreen大数据问题场景分析StumbleUpon是一个个性化的搜索引擎,会按用户的兴趣和网页评分等记录推荐给你感兴趣的网页,有些网页是暂时性的,比如新闻,这些文章可能只是在某一段时间会对读...原创 2019-07-17 15:48:59 · 2008 阅读 · 2 评论