hlzzszzj-CSDN博客

原创不符合正态分布的数据如何进行方差分析

数据不符合正态分布如何进行方差分析

2022-06-04 15:26:08 2681

牛客网MySQL题解入门题(1) SQL1 寻找最晚入职员工的所有信息select * from employees where hire_date=(select distinct hire_date from employeesorder by hire_date desc limit 1 offset 2);简单题(1) SQL2 查找employees里入职员工时间排名倒数第三的员工所有信息# 注意执行顺序是先select然后再order byselect * from empl

2021-08-16 20:37:51 569

原创利用Python连接本地MySQL

利用Python连接本地MySQL1. 连接本地数据库import pymysql# 连接本地MySQL:指定用户名、密码以及需要使用的数据库(student_info)connector = pymysql.connect(host="127.0.0.1", user="root",password="123456",database="studenfts_info",charset="utf8")pymysql.connect中的参数:host=None,# 要连接的主机地址, 本机上

2021-08-14 14:34:03 1778

原创异常检测---task 05 高维数据异常检测

异常检测—task 05 高维数据异常检测在实际场景中，很多数据集都是高维度的，随着维度的增加，数据空间的大小(体积)会以指数级别增长，使数据变得稀疏，这便是维数诅咒的难题。维数诅咒不止给异常检测带来了挑战，对距离的计算、聚类等都带来了难题。例如基于邻近度的方法是在所有维度使用距离函数来定义局部性。但是，在高维空间中，所有点对的距离几乎都是相等的(距离集中)，这使得一些基于距离的方法失效。在高维场景下，一个常用的方法是子空间法。集成是子空间思想中最常用的方式之一，可以有效地提高数据挖掘算法精度。集成

2021-05-20 23:26:25 279

原创异常检测---task 04 基于相似度的方法

异常检测—task 04 基于相似度的方法数据通常被嵌入在大量的噪声中，而我们所说的“异常值”通常指那些具有特定也无意义的哪一类特殊的异常值，噪声可以被视为较弱的异常值，没有被分析的价值。噪声与异常之间、正常数据和噪声之间的边界都是模糊的。异常值通常具有更高的利群程度分数值，同时也更具有可解释性。在普通数据的处理中，我们常常需要保留正常数据，而对噪声和异常值的特性基本忽略，但在异常检测中，我们弱化了“噪声”和“正常数据”之间的区别，专注于那些具有价值特性的异常值，但在基于相似度的方法中，主要思想是异

2021-05-19 17:51:03 130

原创异常检测 task03

异常检测 task03 — 线性模型两种典型的线性模型真实数据集中不同维度的数据通常都具有高度的相关性，这是因为不同的属性往往是由相同的基础过程以密切相关的方式产生的，在古典统计学中，这被称为回归建模，一种参数化的相关性分析。相关性分析分为两种：一种是通过其他变量对某属性的值进行预测，其代表是线性回归；而另一种则是采用潜在变量来代表整个数据，其典型代表是主成分分析。两个重要假设：(1) 近似线性相关假设(2) 子空间假设：子空间假设认为数据是镶嵌在低维子空间中的，线性方法的目的是寻找到

2021-05-17 15:35:20 77

原创异常检测-task 02

基于统计学的异常检测1. 概述统计学方法对于数据的正常行做出假定，其假定正常的数据对象由一个统计模型生成，而不遵守该模型的数据是异常点。异常检测的一般思想是：对于已有的数据拟合一个生成模型，然后识别该模型低概率区域中的对象，将其视为异常点。统计模型的学习主要分为两种：参数方法：假定正常的数据是以θ\thetaθ为参数的参数模型产生的，该参数的分布为f(θ)f(\theta)f(θ)，该值越小，表明xxx为异常点的可能性越小非参数方法：非参数方法试图从输入数据确定模型，通常假定参数的个数和性质是灵

2021-05-13 23:27:27 152

原创异常检测-task 01

异常检测什么是异常？异常是与其它大部分对象不同的对象，且其具有异乎寻常的重要性，异常检测技术是信用卡欺诈检测、工业生产异常以及网络入侵等问题中的重要技术。异常的成因：(1) 数据来源于不同的类(2) 自然变异(如高斯分布模型的边缘点)(3) 数据搜集和测量误差异常的类别：(1) 点异常：指的是少数个体是异常的，大多数个体实例是正常的，例如正常人和健康人的指标(2) 条件异常：又称为上下文异常，指的是在特定场景下实例是异常的，但在其它场景下都是正常的，例如在特定场景下温度突然上升或者

2021-05-12 01:28:35 184

原创支持向量机模型简介

支持向量机模型本学期上了一门支持向量机的课程,其中自己讲了一种支持向量机模型—拉格朗日支持向量机,该算法主要是提升标准SVM算法的运行效率.其实一般来讲,现在SVM算法已经在libsvm和Python中都有很好的实现了,一般使用SVM算法也不会去自己写,但是通过对于课程的讲解,对于支持向量机算法的认识也进一步加深了(主要是对于非线性映射和KKT条件).现附课程中自己做的PPT.下图中第2个式子u_i应当改为u_bar...

2021-04-29 11:47:05 744

原创智慧海洋task04 利用数据进行建模并调参

智慧海洋 task 4 本次task的主要任务是学习利用清洗好的数据来进行建模。学习任务分为3点：(1) 学习如何选择合适的模型并通过模型来进行特征选择(2)掌握随机森林、lightGBM、Xgboost的使用(3)掌握贝叶斯优化方法的使用1.模型训练与预测(1) 随机森林算法从直观来讲，我们可讲决策树视为对于一系列问题结果选择的流程，因此其具有可解释性，而随机森林则是以决策树作为基学习器的集成学习模型(bagging类型)。随机森林中“随机”一词来源于：(a)在构建决策树时基于BootStrap

2021-04-25 09:51:38 212 1

hlzzszzj的博客

原创不符合正态分布的数据如何进行方差分析

原创牛客网MySQL答案整理

原创利用Python连接本地MySQL

原创异常检测---task 05 高维数据异常检测

原创异常检测---task 04 基于相似度的方法

原创异常检测 task03

原创异常检测-task 02

原创异常检测-task 01

原创支持向量机模型简介

原创智慧海洋task04 利用数据进行建模并调参

原创 2021-04-18

原创 2021-04-17

原创 2021-04-16

原创 2021-04-14

空空如也

空空如也