Mrs.King_UP-CSDN博客

原创【第一章数据缘何而来】

认识Excel以及Excel数据存储方式

2023-01-16 12:13:34 205

原创 3.BeautifulSoup库

BeautifulSoup库的使用方法

2022-09-03 14:35:08 201

原创 Linux命令复盘

linux常用命令：文件操作、磁盘目录管理、网络通讯、权限设置等

2022-09-03 11:50:16 1583

窗口函数也称为OLAP函数。OLAP 是的简称，意思是对数据库数据进行实时分析处理。为了便于理解，称之为。常规的SELECT语句都是对整张表进行查询，而窗口函数可以让我们有选择的去某一部分数据进行汇总、计算和排序。窗口函数的通用形式：[ ]中的内容可以省略。窗口函数最关键的是搞明白关键字 PARTITON BY 和 ORDER BY 的作用。PARTITON BY 是用来分组，即选择要看哪个窗口，类似于 GROUP BY 子句的分组功能，但是 PARTITION BY 子句并不具备 GROUP

2022-06-25 23:24:51 268 1

原创 5.集合运算

在数学领域表示“各种各样的事物的总和”, 在数据库领域表示记录的集合. 具体来说,表、视图和查询的执行结果都是记录的集合, 其中的元素为表或者查询结果中的每一行。在标准 SQL 中, 分别对检索结果使用 , 来将检索结果进行并,交和差运算, 像,, 这种用来进行集合运算的运算符称为集合运算符。以下的文氏图展示了几种集合的基本运算。[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-fo9so7kx-1655909085266)(./img/ch04/ch04.01.png)][

2022-06-22 22:45:47 683

原创 4.复杂一点的查询

复杂查询包含视图、子查询和常用的函数、谓词和CASE表达式。其中视图包含视图的创建、视图的修改、视图的更新、视图的删除；子查询有嵌套子查询、标量子查询、关联子查询；常用函数根据作用列又分为算数函数、字符串函数、日期函数、转换函数；谓词有LIKE、BETWEEN AND、IN、NOT IN、EXSITS、NOT EXSITS；还有CASE表达式的三种场景下的用法。...

2022-06-20 00:00:41 676 1

原创 3.聚合与排序

聚合与排序：聚合函数；group by分组聚合；order by 排序

2022-06-16 13:30:21 418

原创 2.Select操作

select基础使用方法：select语句可以包含条件表达式，使用AS给选择的列起别名、distinct删除重复的筛选结果，where条件可以是算术运算（+-*/）、比较运算(>、>=、

2022-06-16 10:18:18 378

原创 1.初始SQL

SQL基础使用：包括数据库的创建，表的创建、修改和删除，表中数据的增删查改，索引的添加

2022-06-15 00:06:56 794

原创 NameError: name ‘_C‘ is not defined

解决方法：pip install Cython，重启kernel

2021-12-21 15:01:21 16749 4

原创算法—day1

二分查找question 1:题目描述：给定一个 nnn 个元素有序的（升序）整型数组 numsnumsnums 和一个目标值 targettargettarget ，写一个函数搜索 numsnumsnums 中的 targettargettarget，如果目标值存在返回下标，否则返回 -1。示例1：输入: nums = [-1,0,3,5,9,12], target = 9输出: 4解释: 9 出现在 nums 中并且下标为 4示例2：输入: nums = [-1,0,3,5,9,1

2021-12-19 11:36:32 153 1

原创基于Hexo博客搭建1

1.环境配置Node.jsHexogit1.1Node.js访问 https://Node.js.org/en/download/ ，下载对应系统的包，然后按照提示安装；安装完成后，在cmd中检测安装是否成功node -v，若安装成功，则返回版本号；Hexo要求Node.js的版本至少是8.10，而且建议使用10.0或者更高的版本。如果我们的Node.js版本不够，则需要升级。升级：通过where node这个命令获取node的安装路径。然后我们下载最新的安装包，覆盖原来的即可。1.2

2021-11-20 09:28:40 116

原创数据分析与挖掘3——特征工程

数据和特征决定了机器学习得上限，而模型和算法只是逼近这个上线1.数据预处理数据采集数据清洗：去除脏数据数据采样：数据存在不平衡得情况下使用，有上采样和下采样之分；正样本>负样本，且数据量大，采用下采样；正样本>负样本，数据量不大，采用上采样；或者修改损失函数设置样本权重2. 特征处理标准化：使得经过处理后的数据符合标准的正态分布。#标准化from sklearn.preprocessing import StandardScalerss=StandardScaler()

2021-09-21 15:52:20 273

原创数据分析与挖掘2——数据预处理

1.缺失值处理查看缺失值train_data.info()#可以查看特征的确实情况import missingno as msnomsno.matrix(train_data,labels=True)#可以一目了然的看到每个变量的缺失情况msno.bar(train_data)#条形图显示缺失值情况删除：适用于数据量较大（记录较多）且缺失比较较小的情形，去掉后对总体影响不大。缺失值较少，删除包含缺失值的行，train_data.dropna()删除缺失值大于80%的列，tr

2021-09-17 16:45:46 653

原创数据分析与挖掘1——数据探索

1.变量识别确定输入变量(特征)、输出变量(target)确定数据类型——数值型数据、字符型数据连续型变量&类别型变量2.变量分析单变量分析：箱型图和直方图，统计连续变量的中心分布趋势和变量分布；出现次数和占比衡量类别型变量箱型图import seaborn as snsplt.subplot(7,8,0)#7行8列的子图，当前子图为第0号sns.boxplot(train_data['sex'],orient='v',width=0.5)#orient竖直方向的箱型图；w

2021-09-17 16:30:43 313 1

原创 Django网站开发（3）—— 网站快速搭建

1.创建站点将站点部署在Ubuntu系统中，路径为www/wwwroot/MyBlog，就相当于将网站相关的所有文件都放在了MyBlog中通过Vscode打开MyBlog，可以进行编码也可以不创建站点，直接变更目录位置2.创建django项目在VsCode中打开文件夹www，创建django文件：django-admin startproject demo，如果创建不成功，通过宝塔修改权限创建成功3.创建app保证在manage.py所在目录下执行python manage

2021-07-01 20:29:48 1343

原创 Django网站开发（2）——HTML、CSS、Python知识点回顾

工作方式VSCode中三种工作方式，红框中写入代码，黄框为运行方式（类似Anaconda的工作形式），还有一种是写完代码，在终端中输入python demo.pyPython1. 数据类型字符串：单引号、双引号、三引号数值布尔其他：[]列表->可变；（）元组->不可变；{} 字典->可变list列表中的增删查改：pop和remove都是删除，但是pop删除之后会将删除结果返回（)可以通过key直接访问value值，若key在字典中，返回value，若key不在

2021-06-22 08:16:01 236

原创 Django网站开发（1）——环境配置

开发工具：Ubuntu镜像+Vmware虚拟机Vscode开发工具Typora Makedown笔记软件在Windows上使用Ubuntu的四种方式：安装双系统安装Vmware虚拟机并导入Ubuntu镜像文件在windows上安装子系统windows应用商店安装WSL（windows自带的虚拟机）相应方式，百度自行安装ifconfig 查看虚拟机网络状况，使用 sudo apt install net-tools 安装在Windows中ping下Ubuntu的IP，是

2021-06-14 22:16:39 22209 6

原创【论文阅读】A detailed analysis of CICIDS2017 dataset for designing Intrusion Detection Systems

论文对CICIDS2017数据集进行客观评价，介绍了数据集本身存在的缺陷以及解决方法。摘要： CICIDS2017是2017年提出的，包含了当下最新的威胁种类和特征，相比于之前的数据集，没有重大的缺陷，但足以使典型的IDS产生偏差。入侵检测系统需要与时俱进的信息才能够有效的检测到攻击，大量入侵检测系统达到98%准确率，吸引了研究者和企业投入资金和时间为用户提供有效的产品，但是这些模型很少能够被企业所使用在开发真实的IDS中。CICIDS2017缺陷在于：数据集过大且过于分散== 可以进行下采样，

2021-05-21 09:47:51 2831 2

原创机器学习—集成学习

在机器学习的有监督学习算法中，我们的目标是学习出一个稳定的且在各个方面表现都较好的模型，但实际情况往往不这么理想，有时我们只能得到多个有偏好的模型（弱监督模型，在某些方面表现的比较好）。集成学习就是组合这里的多个弱监督模型以期得到一个更好更全面的强监督模型，集成学习潜在的思想是即便某一个弱分类器得到了错误的预测，其他的弱分类器也可以将错误纠正回来。集成方法是将几种机器学习技术组合成一个预测模型的元算法，以达到减小方差（bagging）、偏差（boosting）或改进预测（stacking）的效果。集成学

2021-01-27 01:05:41 505

原创深度学习（1）—基于梯度优化的理解

对基于梯度优化的理解：y_pred=relu(dot(W,X)+b)y\_ pred=relu(dot(W,X)+b)y_pred=relu(dot(W,X)+b)训练过程抽取训练样本x和相应目标y组成数据批量在x上运行网络（前向传播），得到预测值y_pred计算网络在这批数据上的损失，用于衡量y_pred和y之间的距离更新网络的所有权重，使网络在这批数据上的损失略微下降训练的过程就是得到合适的W和b，使得y_pred与y之间的距离非常小。但是如何更新网络权重W？？？考虑一个权重wiw_

2021-01-26 22:15:33 436

原创异常检测（5）—高维数据的异常检测

感想：在高维数据中，数据集是多维的（这里的维度是特征），对于距离、聚类的计算都是一个难题，基于邻近度的计算方法是对每一个维度进行距离计算，但是点对的距离相对集中(（xmi,yix_{m}^{i},y^{i}xmi,yi）在第m维上距离近)，这使得基于距离的计算方法失效，对于高维数据的处理，采用子空间的方法，集成方法是子空间思想中常用的一种。集成方法：将多个算法或多个基检测器的输出结合起来。其基本思想是一些算法在某些子集上表现很好，一些算法在其他子集上表现很好，然后集成起来使得输出更加鲁棒。集成方法与基

2021-01-24 21:47:41 1545

原创机器学习—决策树

1.决策树使用特征不断的将数据集划分，划分后的数据集纯度更高，不确定性更小。2.度量标准信息增益、信息增益率、基尼系数几个概念：信息熵：度量某一属性的不确定性（纯度），熵越高，数据越混乱。某一属性的熵：假设某一属性X的可能取值有x1，x2， … , xn。对于每一个可能的取值xi，其概率 P(X=xi) = pi , ( i = 1,2, … , n)。属性X的熵：H(X)=−∑i=1npilog⁡2pi\mathrm{H}(\mathrm{X})=-\sum_{i=1}^{n} p_{i}

2021-01-23 15:16:47 189

原创异常检测（4）—基于相似度的方法

1.基于距离的度量方法基于距离的度量方法是基于最近邻距离来定义异常值。基于距离的异常检测有这样一个前提假设：异常点的kkk近邻距离要远大于正常点的近邻距离。解决问题的最简单方法是使用嵌套循环。第一层循环遍历每个数据，第二层循环进行异常判断，需要计算当前点与其他点的距离，一旦已识别出多于kkk个数据点与当前点的距离在DDD之内，则将该点自动标记为非异常值。这样计算的时间复杂度为O(N2)O\left(N^{2}\right)O(N2)，当数据量比较大时，这样计算是及不划算的。因此，需要修剪方法以加快距

2021-01-21 22:28:09 1169 2

原创异常检测（3）—线性模型

感悟：线性回归和PCA都是通过特征之间的相关性进行异常值检测的。线性回归：相关性分析试图通过其他变量预测单独的属性值进行异常值检测。特征A（特征A中的数据都是正常的）和特征B是线性相关的，可以通过A预测B的数值，如果B的真实值和B的预测值相差较大，那么B特征在该条数据样本中的取值是异常的。PCA:用一些潜在变量来代表整个数据。对所有的数据计算特征向量，异常样本距离特征向量的距离比较远。两点假设：近似线性相关假设。线性相关假设是使用两种模型进行异常检测的重要理论基础。子空间假设。子空间假设认为数

2021-01-19 23:41:42 317

原创机器学习（1）—特征工程

1. 特征抽取在实际的应用中，我们的数据并不是只有数字的数据，而是有各种不同的情况。可能会是一段文字，又或者会是图片、视频。把这些数据抽象成只有数字的方法，就是特征抽取。1.1字典型数据(DictVectorizer类)：get_feature_names()：data经过转换后的特征名称inverse_transform()：One-hot编码/稀疏矩阵转换为原数据形式稀疏矩阵表示（DictVectorizer(),默认sparse=True）：节约存储空间，方便读取One-Hot编码.

2021-01-17 22:27:08 177 1

原创异常检测（2）—基于统计学的方法

1.基于统计学的方法:概念：假定正常的数据对象由一个统计模型产生，而不遵守该模型的数据是异常点。即，利用统计学方法建立一个模型，然后考虑数据点有多大概率符合这个模型。概率越小，为异常点的可能性越大。参数方法:假定数据符合某一参数的分布，该分布的概率密度给出f(x,θ)f(x,\theta)f(x,θ),将数据点带入到概率密度公式，得出该数据点符合该分布的概率，概率越小，越不符合该分布，是异常点的可能性就越大。example：假定输入数据集,数据集中的样本符合正态分布，根据样本数据可以求出参数参数一

2021-01-13 23:21:33 880 2

原创异常检测（1）—初识异常检测

初识异常检测1.概念2.类别3.应用4.方法（1）传统方法（2）集成方法（3）机器学习方法5.常用库：PyOD、Sklearn、TODS1.概念异常一般是指与标准值（预期值）有偏离的样本点，也就是跟绝大部分数据“长的不一样” 。异常往往是“有价值”的事情，我们对异常的成因感兴趣。2.类别有监督：数据集有标签无监督：数据集无标签（异常检测往往是在无监督模式下进行的，获取的数据都是无标签的）半监督：数据集只有单一类别（正例）有标签，没有异常实例参与训练3.应用金融行业反欺诈、信用卡诈骗检

2021-01-13 16:35:10 1317

Mrs.King的博客

原创【第二章 Excel数据格式】