自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 收藏
  • 关注

原创 数据挖掘Task4 建模调参

建模与调参内容介绍 1. 线性回归模型:线性回归对于特征的要求;处理长尾分布;理解线性回归模型;2. 模型性能验证:评价函数与目标函数;交叉验证方法;留一验证方法;针对时间序列问题的验证;绘制学习率曲线;绘制验证曲线;3. 嵌入式特征选择:Lasso回归;Ridge回归;决策树;4. 模型对比:常用线性模型;常用非线性模型;5. 模型调参:贪心调参方法;网...

2020-04-01 21:43:43 129

原创 Task3 特征工程

特征工程特征工程目标对于特征进行进一步分析,并对于数据进行处理内容介绍常见的特征工程包括:异常处理:通过箱线图(或 3-Sigma)分析删除异常值;BOX-COX 转换(处理有偏分布);长尾截断;特征归一化/标准化:标准化(转换为标准正态分布);归一化(抓换到 [0,1] 区间);针对幂律分布,可以采用公式:log⁡(1+x1+median)\log \left(\fra...

2020-03-28 20:38:51 116

原创 Datawhale 二手车交易价格预测Task1&2赛题理解

这里写自定义目录标题1赛题概况数据概况预测指标分析赛题代码示例数据读取pandas分类指标评价计算示例回归指标评价计算示例EDA-数据探索性分析EDA目标内容介绍代码示例载入各种数据科学以及可视化库载入数据总览数据概况判断数据缺失和异常了解预测值的分布特征分为类别特征和数字特征,并对类别特征查看unique分布2.3.7 数字特征分析1赛题概况比赛要求参赛选手根据给定的数据集,建立模型,二手汽...

2020-03-24 21:17:23 253

原创 机器学习 EM算法

EM算法复习:Jensen不等式:若f是凸函数基本Jensen不等式f(θx+(1−θ)y)≤θf(x)+(1−θ)f(y)f(\theta x+(1-\theta) y) \leq \theta f(x)+(1-\theta) f(y)f(θx+(1−θ)y)≤θf(x)+(1−θ)f(y)若 θ1,…,θk≥0,θ1+⋯+θk=1\ \theta_{1}, \ldots, \...

2020-02-03 20:38:02 195

原创 Machine Learning Logistic Regression

机器学习 逻辑回归1、逻辑回归与线性回归的联系与区别2、逻辑回归的原理3、逻辑回归损失函数推导及优化4、正则化与模型评估指标5、逻辑回归的优缺点6、样本不均衡问题解决办法7、sklearn参数8、代码实现1、逻辑回归与线性回归的联系与区别线性回归解决的是连续变量问题,那么在分类任务中可以用线性回归吗?例如判断是良性肿瘤还是恶性肿瘤,判断是垃圾邮件还是正常邮件,等等……答案是也...

2020-01-13 20:55:12 147

原创 Machine Learning Linear Regression

线性回归的概念1、线性回归的原理2、线性回归损失函数、代价函数、目标函数3、优化方法(梯度下降法、牛顿法、拟牛顿法等)4、线性回归的评估指标5、sklearn参数详解1、线性回归的原理进入一家房产网,可以看到房价、面积、厅室呈现以下数据:|| | 面积($x_1$) 厅室数量($x_2)$ 价格(万元)(y) ...

2020-01-11 23:44:20 273

原创 机器学习综述

机器学习算法梳理 Task1 机器学习综述2016年3月,阿尔法围棋与围棋世界冠军、职业九段棋手李世石进行围棋人机大战,以4比1的总比分获胜. 深度学习开始进行大众的视野中. 深度学习其实是机器学习的一个分支,我们今天来看看机器学习是什么. 机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能...

2020-01-09 15:41:01 100

原创 机器学习 回归问题

一.线性回归线性回归就是将输入项分别乘以一些常量,在将结果加起来得到输出。 假定输入数据存放在矩阵 x 中,而回归系数存放在向量 w 中。 那么预测结果可以通过Y=X的转置*W得出。所以我们求解线性回归模型的核心就在于求解w,如何求呢?首先,我们一定是希望预测出来的值和实际值之间的误差越小越好,所以我们评判w好坏,就可以采用实际值与真实值之差表示,但是这个差有正有负,为了避免正负相互抵消的情况,...

2019-12-21 20:27:16 286

原创 机器学习实战 AdaBoost

#机器学习实战 AdaBoost集成方法1 Bagging自举汇聚法(bootstrap aggregating),也称为bagging方法。Bagging对训练数据采用自举采样(boostrap sampling),即有放回地采样数据,主要思想:从原始样本集中抽取训练集。每轮从原始样本集中使用Bootstraping的方法抽取n个训练样本(在训练集中,有些样本可能被多次抽取到,而有些样本...

2019-12-13 16:46:57 150

原创 机器学习实战 支持向量机

机器学习实战 支持向量机1.SVM。SVM有很多实现,但是本章只 关注其中流行的一种实现,即序列最小优化①(Sequential Minimal Optimization,SMO)算法。 在此之后,将介绍如何使用一种称为核函数(kernel)的方式将SVM扩展到更多数据集上。后 会回顾第1章中手写识别的例子,并考察其能否通过SVM来提高识别的效果2. 基于最大间隔分隔数据支持向量机优点:...

2019-11-30 14:13:40 303

原创 机器学习实战 逻辑回归

机器学习实战 逻辑回归Logistic回归的一般过程(1) 收集数据:采用任意方法收集数据。(2) 准备数据:由于需要进行距离计算,因此要求数据类型为数值型。另外,结构化数据 格式则最佳。(3) 分析数据:采用任意方法对数据进行分析。(4) 训练算法:大部分时间将用于训练,训练的目的是为了找到最佳的分类回归系数。(5) 测试算法:一旦训练步骤完成,分类将会很快。(6) 使用算法:首先...

2019-11-23 15:42:59 154

原创 机器学习实战 朴素贝叶斯

机器学习实战 朴素贝叶斯一. 前言朴素贝叶斯算法是有监督的学习算法,解决的是分类问题,如客户是否流失、是否值得投资、信用等级评定等多分类问题。该算法的优点在于简单易懂、学习效率高、在某些领域的分类问题中能够与决策树、神经网络相媲美。但由于该算法以自变量之间的独立(条件特征独立)性和连续变量的正态性假设为前提,就会导致算法精度在某种程度上受影响。二 朴素贝叶斯理论优点:在数据较少的情况下仍然...

2019-11-23 15:22:49 181

原创 Python学习

Python概述Python安装进行下载各种软件 配置 。如果之前没接触过软件安装配置,可以 多安装几次,熟悉安装的流程 。以后安装别的软件时,会快速很多。python运行交互式提示IDLE、Windows、sublime text这三种工 具。输入指令,然后运行 。我觉得这种方式不适合编写项目、调试。遇到代码量多的情况,不方便处理。脚本方式将代码作为文件保存,需要的时候进行调...

2019-11-17 22:00:13 105

原创 机器学习实战 决策树

决策树的构造在构造决策树时,我们需要解决的第一个问题就是,当前数据集上哪个特征在划分数据分类时起决定性作用。为了找到决定性的特征,划分出最好的结果,我们必须评估每个特征。完成测试之后,原始数据集就被划分为几个数据子集。这些数据子集会分布在第一个决策点的所有分支上。如果某个分支下的数据属于同一类型,则当前无需阅读的垃圾邮件已经正确地划分数据分类,无需进一步对数据集进行分割。如果数据子集内的数...

2019-11-17 19:59:21 155

原创 机器学习实战 k-近邻算法

这里写自定义目录标题1.k-近邻算法概述2 电影分类判定3 约会网站配对效果判定1.k-近邻算法概述k-近邻算法采用测量不同特征值之间的距离方法进行分类它的工作原理是:存在一个样本数据集合,也称作训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一数据与所属分类的对应关系。输入没有标签的新数据后,将新数据的每个特征与样本集中数据对应的特征进行比较,然后算法提取样本集中特征最相似...

2019-11-17 19:48:53 247

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除