一、相关背景
互联网的普及后,随之而来的过载的数据,而如何从海量数据中获取人们感兴趣的信息,大致需要解决两方面的问题:一者为海量数据的存储与计算,另一个则是在海量数据上进行分析与挖掘,以获取有用的知识或模式。前者属于大数据架构范畴,后者则很大程度上依赖机器学习技术。
机器学习专注与将数据集划分为训练数据和测试数据,以创建一个模型,来提高对未来做决策的能力。数据挖掘则是尽可能精确地挖掘目标区域,而无需使用自学习模型来了解过去。
二、机器学习中的难点:
- 机器学习算法众多,有较高的理论门槛,对数学基础有一定的要求
- 实践者需要同时掌握多种机器学习框架。市面上也没有某个机器学习框架能够通吃一切
- 特征工程、参数调优以来经验及计算资源
- 机器学习算法在大数据场景下的落地,对工程能力有较高的要求,实践者需要对大数据架构有充分的了解,再将单机上的机器学习算法移植到分布式环境中
三、机器学习的一般步骤
- 准备数据
- 选择算法
- 参数调优
- 评价模型
四、机器学习的分类
- 监督学习
i. 监督学习是向机器中输入各种自变量,输出其因变量值。输入值和输出值都是已知的,也说数据集是“标记的”
ii.在机器解密数据的规则和模式后,它创建了一个模型:其为一个算法方程,根据从训练数据中学习到的基本趋势和规则生成新的数据结果
iii. 监督学习算法:回归分析、决策树、k近邻、神经网络和支持向量机(SVM) - 非监督学习
i. 输出的变量是未标记的,因此输入和输出变量的组合是未知的
ii.非监督学习侧重分析输入数据变量之间的关系,并发现可以提取的隐藏模式,以创建有关可能输出的新标签
iii. 业内,非监督学习在欺诈检测领域引人注目——最危险的攻击是那些尚未被分类的攻击
iv.非监督算法:聚类分析,关联分析,社交网络分析法和降维算法 - 强化学习
i. 定义:通过随机试错和利用先前迭代的反馈来开发其预测模型
目标:通过随机试验大量可能的输入组合并对其性能进行分级,从而达到特定的目标(输出) - 包含关系

五、常见的机器学习算法:
- 决策树
- 随机森林
- 关联规则挖掘
- 聚类算法
- 回归分析
- 贝叶斯方法
- 深度学习
- 强化学习
453

被折叠的 条评论
为什么被折叠?



