step into the door of machine learning(step 1)

原创 2015年07月08日 22:25:59

机器学习算法主要处理的问题模型可以分为4类:

第一、分类问题:对于离散数据集,有一些已经标注好的数据,基于这些标注好的数据进行建模,随后基于该模型对于未标注的数据进行类别区分(此类中的样本集数目要多于测试集),例如google做的垃圾邮件分类的模型;

第二、回归问题:对于连续数据集,有一些已经标注好的数据,基于这些数据进行建模,随后利用该模型对未标注的连续数据进行预测回归,该模型主要是得到一个非线性函数,能够根据输入的未知量大概得到模型结果,主要应用在股票预测、房价预测等问题上;

第三、聚类问题:对于一些输入数据集,该数据集并未标注,但是给出了一些数据间相似度的衡量标准,那么基于该标准可以对数据进行类别划分,主要模型有k均值模型等;

第四、规则提取:发现输入大量的不同类别数据的部分属性之间的统计关系,而不是进行一些类别或者趋势预测,例如超市啤酒和尿布的问题。

学习方式:

  • 监督学习(supervised learning):输入数据都有一个类别标记或结果标记,被称作训练数据,比如垃圾邮件与非垃圾邮件、某时间点的股票价格。模型由训练过程得到,利用模型,可以对新样本做出推测,并可以计算得到这些预测的精确度等指标。训练过程往往需要在训练集上达到一定程度的精确度,不欠拟合或过拟合。监督学习一般解决的问题是分类和回归,代表算法有逻辑斯底回归(Logistic Regression)和神经网络后向传播算法(Back Propagation Neural Network)。

  • 无监督学习(Unsupervised Learning):输入数据没有任何标记,通过推理数据中已有的结构来构建模型。一般解决的问题是规则学习和聚类,代表算法有Apriori算法和k-means算法。

  • 半监督学习(Semi-Supervised Learning):输入数据是标注数据和非标注数据的混合,它也是为了解决预测问题的,但是模型必须同时兼顾学习数据中已经存在的结构和作出预测,即上述监督学习和无监督学习的融合。该方法要解决的问题仍然是分类的回归,代表算法一般是在监督学习的算法上进行扩展,使之可以对未标注数据建模。

  • 增强学习(Reinforcement Learning):在这种学习方式中,模型先被构建,然后输入数据刺激模型,输入数据往往来自于环境中,模型得到的结果称之为反馈,使用反馈对模型进行调整。它与监督学习的区别在于反馈数据更多的来自于环境的反馈而不是由人指定。该方式解决的问题是系统与机器人控制,代表算法是Q-学习(Q-learning)和时序差分算法(Temporal difference learning)。



相关文章推荐

review of machine learning 1

1. difference between linear regression and logistic regression learning                           ...

Foundation of Machine Learning 笔记第五部分 (1) —— Rademacher Complexity 和 VC 维

《Foundation of Machine Learning》笔记第四部分 翻译自书本3.1节。同时增加了对假设集不一致情况的PAC证明...

Ensemble method of machine learning 机器学习中的组合方法

最近做了不少的kaggle机器学习竞赛,总结出了一个经验:做好了feature enginering可以进到前百分之20,如果要进到前百分之10,那么就需要Ensemble method的支持了,所以...

type of machine learning

type
  • MosBest
  • MosBest
  • 2016年07月29日 16:21
  • 318

Courses of Data Mining & Machine Learning & Pattern Recognition

Data Mining The subject of Knowledge Discovery and Data Mining (KDD) concerns the extract...
  • fovwin
  • fovwin
  • 2013年05月05日 19:40
  • 1566

Foundation of Machine Learning 笔记第四部分 —— Generalities 以及对不一致假设集的PAC学习证明

《Foundation of Machine Learning》笔记第四部分 翻译自书本2.4节。同时增加了对假设集不一致情况的PAC证明...

Machine Learning - Solving the Problem of Overfitting: Regularization

This article contains some topic about regularization, including overfitting, and cost function with...
  • iracer
  • iracer
  • 2016年02月21日 13:28
  • 1148
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:step into the door of machine learning(step 1)
举报原因:
原因补充:

(最多只允许输入30个字)