- 博客(14)
- 收藏
- 关注
原创 牛客网MySQL答案整理
牛客网MySQL题解入门题(1) SQL1 寻找最晚入职员工的所有信息select * from employees where hire_date=(select distinct hire_date from employeesorder by hire_date desc limit 1 offset 2);简单题(1) SQL2 查找employees里入职员工时间排名倒数第三的员工所有信息# 注意执行顺序是先select然后再order byselect * from empl
2021-08-16 20:37:51
569
原创 利用Python连接本地MySQL
利用Python连接本地MySQL1. 连接本地数据库import pymysql# 连接本地MySQL:指定用户名、密码以及需要使用的数据库(student_info)connector = pymysql.connect(host="127.0.0.1", user="root",password="123456",database="studenfts_info",charset="utf8")pymysql.connect中的参数:host=None,# 要连接的主机地址, 本机上
2021-08-14 14:34:03
1778
原创 异常检测---task 05 高维数据异常检测
异常检测—task 05 高维数据异常检测 在实际场景中,很多数据集都是高维度的,随着维度的增加,数据空间的大小(体积)会以指数级别增长,使数据变得稀疏,这便是维数诅咒的难题。维数诅咒不止给异常检测带来了挑战,对距离的计算、聚类等都带来了难题。例如基于邻近度的方法是在所有维度使用距离函数来定义局部性。但是,在高维空间中,所有点对的距离几乎都是相等的(距离集中),这使得一些基于距离的方法失效。在高维场景下,一个常用的方法是子空间法。 集成是子空间思想中最常用的方式之一,可以有效地提高数据挖掘算法精度。集成
2021-05-20 23:26:25
279
原创 异常检测---task 04 基于相似度的方法
异常检测—task 04 基于相似度的方法 数据通常被嵌入在大量的噪声中,而我们所说的“异常值”通常指那些具有特定也无意义的哪一类特殊的异常值,噪声可以被视为较弱的异常值,没有被分析的价值。噪声与异常之间、正常数据和噪声之间的边界都是模糊的。异常值通常具有更高的利群程度分数值,同时也更具有可解释性。 在普通数据的处理中,我们常常需要保留正常数据,而对噪声和异常值的特性基本忽略,但在异常检测中,我们弱化了“噪声”和“正常数据”之间的区别,专注于那些具有价值特性的异常值,但在基于相似度的方法中,主要思想是异
2021-05-19 17:51:03
130
原创 异常检测 task03
异常检测 task03 — 线性模型两种典型的线性模型 真实数据集中不同维度的数据通常都具有高度的相关性,这是因为不同的属性往往是由相同的基础过程以密切相关的方式产生的,在古典统计学中,这被称为回归建模,一种参数化的相关性分析。 相关性分析分为两种:一种是通过其他变量对某属性的值进行预测,其代表是线性回归;而另一种则是采用潜在变量来代表整个数据,其典型代表是主成分分析。两个重要假设:(1) 近似线性相关假设(2) 子空间假设:子空间假设认为数据是镶嵌在低维子空间中的,线性方法的目的是寻找到
2021-05-17 15:35:20
77
原创 异常检测-task 02
基于统计学的异常检测1. 概述 统计学方法对于数据的正常行做出假定,其假定正常的数据对象由一个统计模型生成,而不遵守该模型的数据是异常点。异常检测的一般思想是:对于已有的数据拟合一个生成模型,然后识别该模型低概率区域中的对象,将其视为异常点。统计模型的学习主要分为两种:参数方法:假定正常的数据是以θ\thetaθ为参数的参数模型产生的,该参数的分布为f(θ)f(\theta)f(θ),该值越小,表明xxx为异常点的可能性越小非参数方法:非参数方法试图从输入数据确定模型,通常假定参数的个数和性质是灵
2021-05-13 23:27:27
152
原创 异常检测-task 01
异常检测什么是异常? 异常是与其它大部分对象不同的对象,且其具有异乎寻常的重要性,异常检测技术是信用卡欺诈检测、工业生产异常以及网络入侵等问题中的重要技术。异常的成因:(1) 数据来源于不同的类(2) 自然变异(如高斯分布模型的边缘点)(3) 数据搜集和测量误差异常的类别:(1) 点异常:指的是少数个体是异常的,大多数个体实例是正常的,例如正常人和健康人的指标(2) 条件异常:又称为上下文异常,指的是在特定场景下实例是异常的,但在其它场景下都是正常的,例如在特定场景下温度突然上升或者
2021-05-12 01:28:35
184
原创 支持向量机模型简介
支持向量机模型 本学期上了一门支持向量机的课程,其中自己讲了一种支持向量机模型—拉格朗日支持向量机,该算法主要是提升标准SVM算法的运行效率.其实一般来讲,现在SVM算法已经在libsvm和Python中都有很好的实现了,一般使用SVM算法也不会去自己写,但是通过对于课程的讲解,对于支持向量机算法的认识也进一步加深了(主要是对于非线性映射和KKT条件).现附课程中自己做的PPT.下图中第2个式子u_i应当改为u_bar...
2021-04-29 11:47:05
744
原创 智慧海洋task04 利用数据进行建模并调参
智慧海洋 task 4 本次task的主要任务是学习利用清洗好的数据来进行建模。学习任务分为3点:(1) 学习如何选择合适的模型并通过模型来进行特征选择(2)掌握随机森林、lightGBM、Xgboost的使用(3)掌握贝叶斯优化方法的使用1.模型训练与预测(1) 随机森林算法 从直观来讲,我们可讲决策树视为对于一系列问题结果选择的流程,因此其具有可解释性,而随机森林则是以决策树作为基学习器的集成学习模型(bagging类型)。随机森林中“随机”一词来源于:(a)在构建决策树时基于BootStrap
2021-04-25 09:51:38
212
1
原创 2021-04-18
智慧海洋 Task 03 本次task的主要任务是学习如何进行特征工程,从数学上来讲,特征工程是将原始数据空间变换到特征空间,而在新的特征空间中,模型可以更好的学习数据中的规律。特征工程主要包括以下几部分:(1) 探索性数据分析(2)构建数值特征(3)构建类别特征(4)构建时间特征(5)构建文本特征(6)特征提取和特征构造常见特征工程方法异常处理:通过箱线图(或3-sigma原则)分析删除异常值Box-Cox转换(处理有偏分布)长尾截断特征归一化/表转化标准化归一化针对幂律分布
2021-04-18 15:29:53
85
原创 2021-04-17
Pandas中的分组与聚合运算Pandas中分组函数groupby的使用 对于groupby操作可以分为3中情形:(1)Splitting:按照某种规则将数据分为不同的组(2)applying:对于每组数据分别执行一个函数(3) Combining:将结果整合到一个数据结构中。# 创建数据df = pd.DataFrame({'A':[1,2,3,4,5,6,7,8,9,10], 'B':['a','a','c','d','c','d','b','b','c','c'],
2021-04-17 18:45:53
52
原创 2021-04-16
智慧海洋-task02 在task01中我们对学习了常用的地理数据分析工具,而在task中主要学习对智慧海洋项目中数据进行探索性数据分析( Exploratory Data Analysis),其主要目的是:了解数据的基本情况——有无异常值、数据的分布如何,可以熟悉数据,为后面的特征工程做准备;了解特征之间的相关性,以及特征与预测之间的关系;为特征工程提供理论依据数据集总体了解读取数据的维度查看数据的总体信息:data.info()columns/notnull/count/Dtype查看数
2021-04-16 23:43:47
81
原创 2021-04-14
智慧海洋task 01本次数据挖掘组队学习的内容来自于2020DCIC智能算法赛-智慧海洋建设,该赛题旨在于通过分析渔船北斗设备位置数据,具体判断出是拖网作业、围网作业还是刺网作业,本质上是序列数据的分类问题。Task 01主要是学习Python中地理空间数据分析工具shapely、folium、kepler.gl、geohash等的使用。*1. shapely的介绍及使用 shapely是Python中的几何对象库,支持对于点(Point)、线(Curve)、面(Surface)等几何对象的操
2021-04-14 23:34:46
249
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人