ML
kewilling
All things are difficult before they are easy.
展开
-
【Python机器学习预测分析算法实战七】集成算法
集成算法(Emseble Learning)是构建多个学习器,然后通过一定策略结合把它们来完成学习任务的,常常可以获得比单一学习显著优越的学习器。 集成方法是由两层算法组成的层次架构。底层算法叫做基学习器。基学习器是单个机器学习算法,这些算法在后续会被集成到一个集成方法中。决策树是最常用的基学习器之一。目前广泛使用的上层算法主要有:投票(bagging)、提升(boosting)、随机森林...原创 2019-12-31 17:52:20 · 756 阅读 · 0 评论 -
pyspark.sql DataFrame创建及常用操作
Spark SQL 简介及参考链接Spark 是一个基于内存的用于处理大数据的集群计算框架。它提供了一套简单的编程接口,从而使得应用程序开发者方便使用集群节点的CPU,内存,存储资源来处理大数据。Spark API提供了Scala, Java, Python和R的编程接口,可以使用这些语言来开发Spark应用。为了用Spark支持Python,Apache Spark社区发布了一个工具PySp...转载 2019-12-19 15:20:14 · 596 阅读 · 0 评论 -
【Python机器学习预测分析算法实战六】使用惩罚线性回归求解二分类问题
本节详细介绍如何使用惩罚线性回归来求解二分类问题,具体使用python的ElasticNet包。其求解步骤为: 将二分类问题转换为回归问题。构建一个包含实数标签的向量,将其中一个类别输出设置为0,另一个类别输出设置为1。 执行交叉验证。因为需要对每一份数据计算错误,交叉验证稍微复杂。Scikit-learn包含一些便捷的功能来将这些计算流水化。 下面以水雷数据集为例进行试验并具体说...原创 2019-12-17 18:00:34 · 564 阅读 · 0 评论 -
【Python机器学习预测分析算法实战五】最小角回归LARS
通过前面的介绍,我们了解到求解惩罚性回归模型等价于求解一个优化问题,有大量的通用算法可以求解。这次介绍一个非常快速敏捷的算法——最小角度回归(LARS)算法。LARS算法可以理解为一种改进的前向逐步回归算法。前向逐步回归算法和最小角度回归算法(LARS): 前向逐步回归算法过程如下: 将回归系数的所有值初始化为0 在每一步使用已经选择的变量找到残差值 确定哪个未使用的变量能够...原创 2019-12-16 18:03:26 · 1405 阅读 · 0 评论 -
【Python机器学习预测分析算法实战四】前向逐步回归和岭回归
模型与数据的均衡:前向逐步回归和岭回归 最小二乘法(OLS)是较为常用的一种回归方法,作为一个原型很好的展示了机器学习算法的方方面面。它是一个有监督学习算法,包括训练过程和测试过程。但是在使用的OLS的时候经常会遇到过拟合的情况。过拟合的原因是训练数据和测试数据上的错误存在显著的差异。在原始的公式中,当过拟合发生时,没有办法阻止学习过程。下面介绍两种优化OLS的方法:前向逐步回归和岭回归。 ...原创 2019-12-12 14:46:38 · 1339 阅读 · 0 评论 -
【Python机器学习预测分析算法实战三】预测模型性能评估及影响因素
选择并拟合一个预测算法的最终目标是获得最佳可能的效果。能够达到的性能取决于3方面的因素:问题的复杂性,模型算法的复杂性,可用数据的丰富程度。理解函数逼近 预测问题包括两种变量: 第一种变量是尝试要预测的变量; 第二种变量是用来进行预测的变量。 函数逼近问题是要构建以第二类变量作为输入的函数来预测第一类变量。要预测的变量一般有多种正式的名称,如标签、目标、结果。用于构建预测的输...原创 2019-12-12 14:37:48 · 4229 阅读 · 0 评论 -
【Python机器学习预测分析算法实战二】源数据处理与分析
在构建机器学习预测分析模型之前,我们首先要做的就是把源数据基本情况搞清楚搞明白。源数据分为属性数据和标签数据,属性数据就是数学含义下的自变量,标签数据就是数学含义下的因变量(函数)。属性和标签的不同类型决定模型的选择。初始审视数据集时,需要考虑数据集的相关特性,如下:• 行数、列数• 类别变量的数目、类别变量的取值范围• 缺失的值(检测与处理)• 属性和标签的统计特性• 异常值(检测...原创 2019-12-06 12:09:50 · 489 阅读 · 0 评论 -
【Python机器学习预测分析算法实战一】预测分析核心算法分类
最近在学习机器学习预测分析算法,在学习过程中顺便将关键笔记记录下来,一方面巩固认知另一方面便于以后的查找,如果能对大家有帮助和参考那就更好了。 首先机器学习预测分析算法解决的问题通常是指“函数逼近问题”,函数逼近问题是有监督学习问题的一个子集。线性回归和逻辑回归是解决这类问题最常见的算法。函数逼近问题包含了各种领域中的分类问题和回归问题,如文本分类、搜索响应、广告投放、垃圾邮件过滤、用户行...原创 2019-12-04 10:41:51 · 972 阅读 · 1 评论 -
python多项式回归预测(基于淘宝双十一数据)
双11已经结束,按照天猫官方公布的最终数据看,今年的双11成交额为2684亿元,成功刷新了自己创下的商业纪录。然而,早在2019年4月就有网友指出,从天猫双十一的全天销售额来看,实际生产数据几乎完美地分布在三次回归曲线上,拟合度均超过99.94%,几乎为1,而且生产数据有10年之久,每一年的数据都这么高度拟合,数据过于完美。与此同时,这名网友还预测,“2019年淘宝双11当天的销售额为2675.3...原创 2019-11-13 16:42:20 · 4886 阅读 · 4 评论