Deepin_L-CSDN博客

原创如何理解逻辑回归中的损失函数

逻辑回归是一种有监督的分类模型，常用于二分类。线性模型的公式是y(x)=θ0+θ1x1+θ2x2+...+θnxny(x)=\theta_0+\theta_1x_1+\theta_2x_2+...+\theta_nx_ny(x)=θ0+θ1x1+θ2x2+...+θnxn，及y(x)=θTxy(x)=\theta^Txy(x)=θTx。将线性模型带入sigmod函数就是用于二分类的逻辑回归：y(x)=11+e−θTxy(x)=\frac{1}{1+e^{-\theta^T x}}y(x)=1

2021-01-26 16:50:37 1044

原创 LDA降维的讲解

LDA简介LDA根据带标签的数据点，将点投影到维度更低的空间中，使得投影后的点，**按照类别进行区分，同一类别的数据点，在投影后的空间中更接近。**这时类间距离最大化并且类内距离最小LDA的数学推导举一个简单的例子，假设有两个样本C1和C2C_1和C_2C1和C2，均值分别是μ1,μ2\mu_1,\mu_2μ1,μ2，投影方向为www,则投影后两个样本的距离就可以表示为：PCA降维全过程文章的补充中有投影的计算D(C1,C2)=∣∣wT(μ1−μ2)∣∣2（1式）D(C_1,C_2)=||

2020-11-05 18:43:08 1629 1

原创 PCA降维全过程

PCA的目的将原有的d维数据集，转换成k维的数据（k<d）新生成的k维数据尽可能的包含原来d维数据的信息PCA的数学推导假设对n个样本xix_ixi进行PCA处理，先对数据进行中心化，即将数据的均值变为0（为了后面计算的方便，不用减去mean）1N∑i=1Nxi=0\frac{1}{N}\sum_{i=1}^{N}x_i=0N1i=1∑Nxi=0则数据集的协方差矩阵为Cov(xi,xj)=1n∑i=1n(xi−μi)(xj−μj)Cov(x_i,x_j)=\frac{1

2020-10-31 12:45:51 1961 1

原创 DataWhale数据挖掘-Task4&5

特征选择特征选取从文字、图像、声音等其他非结构化的数据中提取信息作为特征特征创造把现有的特征进行组合，或相互计算得到新的特征特征选择从所有的特征中，选择出有意义、对模型有帮助的特征，避免将所有的特征都导入到模型中选择特征的方法过滤法嵌入法包装法降维算法决策树决策树是一种有监督的方法，它能从一系列有特征和标签的数据中总结出决策规则，并用树状图的结构来呈现这些规则，以解决分类和回归问题。剪枝在不加限制的情况下，一棵决策树会生长到衡量不纯度的指标最优，或者没有

2020-08-25 20:17:32 236

原创 DataWhale数据挖掘-Task3笔记

时间序列分解一个时间序列通常是几类变化形式的叠加或是耦合。包括长期趋势、循环波动、季节性变化和随机波动长期趋势T：指在较长时期内持续发展变化的一种趋向或状态循环波动C：不具严格规则的周期性连续变动季节波动S：指由季节的变化引起的变动随机波动I：偶然因素对时间序列造成的影响时间序列分解模型加法模型Yt=Tt+St+Ct+It{Y_t = T_t+S_t+C_t+I_t}Yt=Tt+St+Ct+It在加法模型中四种成分之间是相互独立的。乘法模型Yt=Tt∗St∗Ct∗

2020-08-24 22:18:57 260 1

原创分类问题和回归问题

分类问题分类问题的目标是根据已知样本的某些特征，判断一个新样本属于哪个已知的样本类。根据类别的数量可以进一步将分类问题划分为二元分类和多元分类，例如判断图片中动物的种类是猫、狗或是其它。回归问题回归问题用来预测一个值，比如未来的天气情况。分类和回归的区别分类是预测一个标签，回归是预测一个数量分类是给一个样本预测离散型类别标签回归是给一个样本预测连续输出量...

2020-08-23 19:01:28 415

原创 DataWhale数据挖掘-Task2笔记

基于周期因子的时间序列预测1、时间序列分析是根据过去的变化趋势来预测未来的发展。2、时间序列数据变动存在着规律性和不规律性趋势性周期性随机性综合性周期因子法提取时间序列的周期性特征进行预测预测 = 周期因子 * base获取周期因子的方法除以周均值，按列取中位数季节指数的计算方式，获取每日（工作日或周末）均值，再除以整体均值未待续...

2020-08-22 21:07:23 194

原创 DataWhale数据挖掘-Task1笔记

Q：数据处理-为什么要使用One-Hot在机器学习的模型需要的数据是数字类型的，而特征有时候不是连续值，可能是一些分类值，比如性别分为male和female。通常我们需要对这类特征进行特征数字化。One-Hot介绍One—Hot编码，又称为一位有效编码，主要使用N位状态寄存器来对N个状态进行编码，每个状态都有它独立的寄存器位，并且在任意时候只有一位有效One—Hot使用Q:有如下的三个特征属性，有一个样本[“male”，“US”，“Internet Explorer”]使用One—Hot进行编码

2020-08-20 18:53:52 322

原创 Matplotlib可视化--有序条形图（笔记）

该例子来自于机器学习网站MachineLearning Plus上的博文：Python可视化50图import numpy as npimport pandas as pdimport matplotlib.patches as patchesimport matplotlib.pyplot as plt准备数据df_raw = pd.read_csv('https://github.com/selva86/datasets/raw/master/mpg_ggplot2.csv')df.

2020-06-17 10:08:22 652

原创机器学习--朴素贝叶斯（GaussianNB）

朴素贝叶斯之鸢尾花数据集import numpy as npimport pandas as pdimport random读取数据dataSet = pd.read_csv('./data/iris.txt', header=None)dataSet.head() 0 1 2 3 4 0 5.1 3.5 1.4 .

2020-06-16 17:36:20 7090

原创 Maplotlib可视化--散点图中包围数据集的点

在散点图中包围不同数据集1、导入使用的库import matplotlib.pyplot as pltimport numpy as npfrom scipy.spatial import ConvexHull2、绘制简单的散点图x1 = [1,2,4,5,6]x2 = [4,2,5,6,3]plt.scatter(x1,x2);3、绘制多边形3.1、构造坐标p = np.c_[x1,x2] # p是x1为横坐标，x2为纵坐标的点（第0列是x1，第1列是x2）print(.

2020-06-14 08:14:04 423

原创 Matplotlib可视化--散点图（笔记）

本文使用的环境是jupyter notebook，目的是画实战中的散点图，该例子来自于机器学习网站MachineLearning Plus上的博文：Python可视化50图1、需要使用的库# 导入需要的库import numpy as npimport pandas as pdimport matplotlib.pyplot as plt# 让jupyter notebook能显示图像%matplotlib inline matplotlib.pyplot的开发文档2、绘制单色.

2020-06-13 16:06:43 2331 1