indigo女孩-CSDN博客

原创支持向量机算法及实验分析

支持向量机要解决的问题：什么样的决策边界才是最好的呢？距离的计算考虑平面上的点x’和x’’：wTx′=−b,wTx′′=−bw^Tx'=-b,w^Tx''=-bwTx′=−b,wTx′′=−b有w垂直于平面：wT(x′′−x′)=0w^T(x''-x')=0wT(x′′−x′)=0利用平面上两点x’,x’'得到平面法向量，计算x到x’的距离，利用法向量计算投影距离diatance(x,b,w)=∣wT∣∣w∣∣(x−x′)∣=∣wTx+b∣∣∣w∣∣diatance(x,b,w)=|\

2022-04-01 17:36:42 639

原创线性回归算法及实现二

线性回归主要内容：线性回归方程实现梯度下降效果对比不同梯度下降策略建模曲线分析过拟合与欠拟合正则化的作用提前停止策略import numpy as npimport os%matplotlib inlineimport matplotlibimport matplotlib.pyplot as pltplt.rcParams['axes.labelsize'] = 14plt.rcParams['xtick.labelsize'] = 12plt.rcParams['yt

2022-03-29 15:25:28 337

原创一元和多元线性回归算法及实现

线性回归：LinearRegression误差真实值和预测值之间肯定存在的差异用ε表示，误差项越小越好。yi=θTxi+ϵi(1)y^i=\theta^Tx^i+\epsilon^i(1)yi=θTxi+ϵi(1)误差εi是独立并且具有相同分布，并且服从均值为0方差为θ2的高斯分布（样本间独立，不会互相影响，所以误差εi也是独立的）p(ϵi)=12πδexp(−(ϵi)2−(μ=0)2δ2)(2)p(\epsilon^i)=\frac{1}{\sqrt{2\pi}\delta}exp(-\fra

2022-03-29 15:04:48 1088

原创决策树与随机森林

决策树原理树模型：决策树：从根节点开始一步步走到叶子节点（决策）所有的数据最终都会落到叶子节点，既可以做分类也可以做回归树的组成：根节点：第一个选择点非叶子节点与分支：中间过程叶子节点：最终的决策结果决策树的训练与测试：训练阶段：从给定训练集构造一棵树测试阶段：根据构造出来的树模型从上到下走一遍难点：如何构造一棵树如何切分特征：问题：根节点的选择该用哪个特征？后面如何切分？目标：通过一种衡量标准，来计算通过不同特征进行分支选择后的分类情况，找出来最好的那个当根节点，

2022-03-24 17:08:36 677

原创聚类分析和K-means&Dbscan原理

聚类分析和K-means&Dbscan原理聚类概念无监督问题：手里没有标签聚类：相似的东西分为一组难点：如何评估、如何调参K-means算法基本概念要得到簇的个数，需要指定K值质心：均值，即向量各维取平均即可（迭代时用）距离的度量：常用欧几里得距离（欧氏距离）和余弦相似度（先正则化）优化目标：（即损失函数最小）min∑i=1K∑x∈Cidist(ci,x)2min\sum^K_{i=1}\sum_{x\in{C_i}}{dist(c_i,x)^2}mini=1∑Kx∈Ci

2022-03-23 16:16:54 2681 1

原创主成分分析PCA

Principal Component Analysis动机：Feature之间总有一定相关性，造成特征冗余，增加计算量。如何改善？高维度数据可视化问题X去均值(减去均值)、标准化(X的每一列的Feature的方差都控制在一定范围内)Xnew=X∗V X_{new} = X * V Xnew=X∗V其中V是ev(XTX或Cov(XT))排序后的前k列(特征向量ev，维度(n,n);特征值ew,维度(1,n))k的取值的标准是，要求将sqrt{ew}后，前k个元素累加和cumsum>

2022-03-22 10:55:13 648

原创 pandas基础_2

pandasgroupby练习df = pd.DataFrame({'A':['foo','bar','foo','bar','foo','bar','foo','foo'], 'B':['one','one','two','three','two','two','one','three'], 'C':np.random.randn(8), 'D':np.random.randn(8)})

2022-03-21 10:17:43 2001

原创假设检验基本知识

假设检验显著水平一个概率值：原假设为真时，拒绝原假设的概率，表示为alpha，常用取值为0.01，0.05，0.10例子：公司招聘200人，但公司只希望只有5%的人是浑水摸鱼进来的，即4人，而这个5%就是显著性水平alpha假设检验的步骤提出假设确定适当的检验统计量规定显著性水平计算检验统计量的值做出统计决策原假设和备择假设待检验的假设又叫原假设（零假设）H0。（原假设一般为没有差异、没有变化）与原假设对比的假设叫做备择假设H1一般的比较：等于、大于、小于检验统计量计

2022-03-20 17:20:30 12315

原创 pandas基础_1

pandas基础数据使用泰坦尼克数据基本操作读取训练集数据df = pd.read_csv('train.csv')常用的基本信息查询df.head() #默认查看前5条，可以使用head(10)查看前10条df.tail() #默认查看最后5行数据df.info() #返回当前信息df.index() #索引df.columns #列名df.dtype #类型df.values #值df.describe() #有数值的列的count(),mean(),std(),min()

2022-03-17 15:42:11 3586

原创 numpy基础学习笔记

numpyarray数组numpy默认要求矩阵里面都是相同类型array = ([1,2,3,4,'5'])print(array) # array(['1','2','3','4','5'],dtype = '<U11')一些常用的函数：array.itemsize() # 查看每个元素占了多少个字节array.size() # 查看里面有多少个元素array.ndim() # 查看有多少个维度array.fill(n) # 用n填充矩阵array = ([1,2,3,4,5

2022-03-16 15:44:53 1540

qq_45003520的博客