![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习基础
Members only
这个作者很懒,什么都没留下…
展开
-
决策树和随机森林的实现,可视化和优化方法
决策树原理决策树原理这篇文章讲的很详细。本文仅写代码实现。决策树决策树可视化从网站 https://ndownloader.figshare.com/files/5976036下载下来解压之后,用pd.read_csv读入data那个文件...原创 2020-03-20 18:16:14 · 4848 阅读 · 0 评论 -
过采样实现方法:SMOTE样本生成策略
SMOTE原理SMOTE(Synthetic Minority Oversampling Technique),合成少数类过采样技术.它是基于随机过采样算法的一种改进方案,由于随机过采样采取简单复制样本的策略来增加少数类样本,这样容易产生模型过拟合的问题,即使得模型学习到的信息过于特别(Specific)而不够泛化(General),SMOTE算法的基本思想是对少数类样本进行分析并根据少数类样本...原创 2020-03-13 15:31:56 · 3149 阅读 · 2 评论 -
Kaggle经典案例—信用卡诈骗检测的完整流程(学习笔记)
首先先看数据import pandas as pdimport matplotlib.pyplot as pltimport numpy as np%matplotlib inlinedata = pd.read_csv("creditcard.csv")data.head()data.shape好的,它长这个样子。大致解释一下V1-V28都是一系列的指标(具体是什么不用知道)...原创 2020-03-12 18:14:13 · 4003 阅读 · 1 评论 -
什么是梯度下降?
梯度下降为什么需要引入梯度下降?通过之前通过线性回归已经求出了目标函数(现在需要使得目标函数越小越好)这里又求解过程,总之现在目标函数长这个样子:1. 为什么要除了m这个样本总数呢?因为假设10万份样本和5万份样本,显而易见10万份的样本损失一定更大,而在这里我们是为了得到一个与样本数量无关的泛值。2. 那么为什么要引入梯度下降呢?直接求偏导数找到极值点不就可以了吗?因为求偏导的过程...原创 2020-03-06 14:42:18 · 967 阅读 · 0 评论 -
简单易懂的线性回归基础和从极大似然估计推导最小二乘法
首先假设有这样一组数据X1X2…Ya1b1…c1a2b2…c2…………找到一条合适的线来拟合数据点,可以根据给的X预测Y值设置权重参数假设每个X都有一个对应的θ为它的权重参数,可得:Y=Θ0+Θ1X1+Θ2X2+...Y=\Theta_0+\Theta_1X_1+\Theta_2X_2+...Y=Θ0+Θ1X1+Θ2X2...原创 2020-03-04 17:43:06 · 2224 阅读 · 5 评论