逆游的鲤鱼-CSDN博客

感想在实际场景中，很多数据集都是多维度的。在高维空间中，所有点对的距离几乎都是相等的（距离集中），这使得一些基于距离的方法失效。在高维场景下，一个常用的方法是子空间方法。常见的方法有Feature Bagging 和孤立森林。1、Feature Bagging实现步骤：①、选择基检测器。这些基本检测器可以彼此完全不同，或不同的参数设置，或使用不同采样的子数据集。Feature bagging常用lof算法为基算法。②、分数标准化和组合方法：不同检测器可能会在不同的尺度上产生分数。例如，平均k近

2021-01-24 21:40:47 459

原创异常检测学习之基于相似度的方法

感想这一节内容，没有看的特别明白。先把自己理解的部分归纳下。基于相似度的方法：就是通过一个指标来衡量同类样本具有共性归为一类，然后把少数样本分辨出来判定为异常样本。而这里的指标是距离。基于距离的方法是一种常见的适用于各种数据域的异常检测算法，它基于最近邻距离来定义异常值。此类方法不仅适用于多维数值数据，在其他许多领域，例如分类数据，文本数据，时间序列数据和序列数据等方面也有广泛的应用。基于距离的异常检测有这样一个前提假设，即异常点的近邻距离要远大于正常点。解决问题的最简单方法是使用嵌套循环。第

2021-01-21 18:25:10 306

原创异常检测学习之线性模型

感想假设一：近似线性相关假设。线性相关假设是使用两种模型进行异常检测的重要理论基础。假设二：子空间假设。子空间假设认为数据是镶嵌在低维子空间中的，线性方法的目的是找到合适的低维子空间使得异常点(o)在其中区别于正常点(n)。基于这两点假设，在异常检测的第一阶段，为了确定特定的模型是否适合特定的数据集，对数据进行探索性和可视化分析是非常关键的。1、先可视化观察数据①、head()+tail()+shape:简略查看数据结构②、describe()：来熟悉数据的相关统计量，主要是观察最大值与75%、

2021-01-18 21:53:33 268

原创异常检测学习之统计学方法

感想统计学方法对数据的正常性做出假定。它们假定正常的数据对象由一个统计模型产生，而不遵守该模型的数据是异常点。统计学方法的有效性高度依赖于对给定数据所做的统计模型假定是否成立。根据如何指定和学习模型，异常检测的统计学方法可以划分为两个主要类型：参数方法和非参数方法。1、参数方法：假定正常的数据对象被一个以为参数的参数分布产生。该参数分布的概率密度函数给出对象被该分布产生的概率。该值越小，越可能是异常点。2、非参数方法：并不假定先验统计模型，而是试图从输入数据确定模型。非参数方法通常假定参数的

2021-01-15 19:53:50 304

原创 pandas学习之综合练习

总结1、任务1：①、首先我们解读题目：需要模型名称、训练状态或推断状态、数值。状态是float, half, double三种，Training表示训练，Inference表示推断。②读取数据import pandas as pd import numpy as npimport iodf=pd.read_csv('benchmark.txt',sep='\r\t') # 我们发现分隔符是换行符df.head(11) # 查看数据数据解读，从以下结果看出，我们要的数据是从第10行

2021-01-13 20:30:28 209

原创异常检测学习之初识异常检测

感想1、异常检测（Outlier Detection），顾名思义，是识别与正常数据不同的数据，与预期行为差异大的数据。一听这名称，给人感觉高大上，其实就是研究极少数事件，离群点研究，如识别如信用卡欺诈，工业生产异常，网络流里的异常（网络侵入）等问题。2、分类有监督：训练集的正例和反例均有标签无监督：训练集无标签半监督：在训练集中只有单一类别（正常实例）的实例，没有异常实例参与训练3、常用方法①、统计学方法：对数据的正常性做出假定。前提数据服从正态分布。学习一个拟合给定数据集的生成模型，然后识别

2021-01-12 19:22:54 315

原创 pandas学习之时序数据

感想时序数据处理太难了，很多知识点没有搞明白。先把自己理解清楚的内容记录下。1、首先需要知道，时间变量在python系统中是以时间戳类型保存的，由日期和时间共同组成，即Timestamp，精确到ns。2、date_range 是一种生成连续间隔时间的一种方法，其重要的参数为 start, end, freq, periods ，它们分别表示开始时间，结束时间，时间间隔，时间戳个数。这里重点说明下，freq和periods 的区别:freq：是在时间间隔后找不到该日期，会舍弃不填充数据；呈现格式是依

2021-01-10 18:42:17 258

原创 pandas学习之分类数据

感想pandas处理分类变量的方法有：cat、get_dummies、cut和qcut。cat需先把特征转换为category 类型，然后调用codes转换为分类变量。get_dummies是采用广播方式把各类型提取为特征，并用0和1来表示分类变量，升维操作。cut和qcut分箱操作，主要是针对数值型数据处理转换为区间类型。1、category 类型使用户能够处理分类类型的变量，将一个普通序列转换成分类变量可以使用 astype 方法s = df.Grade.astype('category'

2021-01-07 18:59:48 1070

原创 pandas学习之文本数据

感想pandas常用文本操作函数有九种。①、字母型函数：upper, lower, title, capitalize, swapcase②、数值型函数：pd.to_numeric③、统计型函数：count 和 len④、格式型函数：strip, rstrip, lstrip，pad, rjust, ljust, center,zfill⑤、替换型函数：replace⑥、拆分型函数：split⑦、合并型函数: join 和 cat⑧、匹配型函数：contains 、startswith 、

2021-01-05 21:57:21 169 1

原创 pandas学习之缺失数据

感想今天总结下缺失数据处理心得。在拿到数据、拼接数据、汇总数据时，一定要使用df.isna().sum()或df.isna().mean()观察是否存在缺失数据，后一个方法还可以检测出缺失数据占比。(我今天在使用groupby汇总数据时，忘记查看缺失数据，导致结果不全，白白浪费1个小时时间)因时间关系，我就简单讲解下常用处理缺失数据思路。1、pandas自带缺失值处理方法fillna(),在 fillna 中有四个参数是常用的： value, method, limit,inplace 。其中， va

2021-01-03 20:00:33 186

原创 pandas学习之练习题解读

解题1、【任务一】企业收入的多样性【题目描述】一个企业的产业收入多样性可以仿照信息熵的概念来定义收入熵指标：I=− ∑p(xi)log(p(xi))其中 p(xi) 是企业该年某产业收入额占该年所有产业总收入的比重。在company.csv中存有需要计算的企业和年份，在company_data.csv中存有企业、各类收入额和收入年份的信息。现请利用后一张表中的数据，在前一张表中增加一列表示该公司该年份的收入熵指标 I 。思路：首先，我们看下两个表的数据存在两个问题：①、证券代码数据及数据类型不

2021-01-01 12:15:12 336

原创 pandas学习之连接

感想连接是pandas中最重要的操作，平时经常要与它打交道。因为平时遇到的数据多个数据源的，需要把涉及的数据源全部拼接一起。按方式划分，可分成外连接、内连接、右连接、左连接。逻辑同SQl中对应连接功能。按关联方式划分，可分为值连接、索引连接、方向连接及拼接。1、python中连接的函数有：merge、join、concat、append 和 assign 。2、一般两个字段及字段含义不相同表之间连接使用merge。3、concat相当于纵向连接，会自动广播，若表之间有共同的字段，相当于在第一个表

2020-12-29 22:26:34 749

原创 pandas学习之变形

感想首先，pandas变形工具有：pivot、pivot_table、melt、wide_to_long、stack、unstack、crosstab、explode、get_dummies。1、pivot与pivot_table这两个函数，就相当于excel表的数据透视功能。两者的区别是：pivot:不需要聚合函数；每行数据是唯一的，不存在重复数据，否则报错。pivot_table:用到聚合函数，可实现维度变化的数据统计功能2、meltmelt 和 pivot 是一组互逆过程。3、sta

2020-12-27 22:44:34 253

原创 pandas学习之分组

感想分组(Groupby):是python数据处理必备武器。groupby返回的结果是DataFrameGroupBy对象，需要和聚合函数组合产生新的DataFrame。df.groupby([‘分组类别’]).ngroups：查看分组组数df.groupby([‘分组类别’]).groups.keys():查看各分组组别名称df.groupby([‘分组类别’]).describe():查看各分组组别各描述性统计数据参考资料：https://datawhalechina.github.io/j

2020-12-25 20:15:33 347

原创 pandas学习之索引

感想近期，公司业务繁忙，学习时间受限，只能插空看教材，然后有时间再把自己不会的知识点，用Notebook演练一把。有人会说，上班没时间可以周末呀，我们公司是单休，有时还要在周日加班整理下周周一开会需要的资料。本周的知识点，看了两遍，习题无法全部完成，本次分享我的一些想法及个别题目的解题内容。1、索引索引是python中最重要的工具，会有很多索引方法，我们并不一定要全部完全掌握，但我们一定要熟练掌握其中2-3种，如loc和iloc，只有专精才能全通。一般地，单层索引用起来方便舒适；平时使用习惯使用r

2020-12-22 20:09:34 126

原创 pandas学习之pandas基础

感想一、窗口对象pandas 中有 3 类窗口，分别是滑动窗口 rolling 、扩张窗口 expanding 以及指数加权窗口 ewm。1、rolling():移动窗口，常用参数windowab= pd.Series([1,2,3,4,5,6,7,8,9,10])ab.rolling(window=2).sum()返回结果：很容易发现，window参数就相当于一个移动切片，从第window个数据开始往前截取window个数据。小练习： rolling 对象的默认窗口方向都是向前的

2020-12-18 21:53:08 5189

原创 pandas学习之Python基础

感想经常使用的几个小技巧：1、使用pandas必须导入两个包：import numpy as npimport pandas as pd2、当数据字段超过20个以上，需要使用以下语句来展示全部列：#显示所有列pd.set_option('display.max_columns', None)#设置value的显示长度为100，默认为50pd.set_option('max_colwidth',100)3、2个常用函数、2个常用方法：info():用于查看各字段数据类型、行数及是否存

2020-12-16 20:46:05 163 1

原创学习笔记之支持向量机

一、数学原理支撑向量机，SVM(Support Vector Machine)，其实就是一个线性分类器。1、定义及思想2、决策边界3、数学推导第一步：给出表达式。第二步：求导。第三步：转换对偶问题。第四步：求a。第五步：求ω。第六步：求b。二、核函数三、应用...

2020-05-03 21:48:07 203

原创学习笔记之PCA

一、主成分分析1、定义PCA(Principal Component Analysis)，即主成分分析方法，是一种使用最广泛的数据降维算法。主成分分析在减少需要分析的指标同时，尽量减少原指标包含信息的损失，以达到对所收集数据进行全面分析的目的。由于各变量之间存在一定的相关关系，因此可以考虑将关系紧密的变量变成尽可能少的新变量，使这些新变量是两两不相关的，那么就可以用较少的综合指标分别代表存在...

2020-04-26 16:22:15 252

原创学习笔记之决策树

决策树是一种常见的机器学习算法，它的思想十分朴素，类似于我们平时利用选择做决策的过程。它是类似流程图的结构，其中每个内部节点表示一个测试功能，即类似做出决策的过程（动作），每个叶节点都表示一个类标签，即在计算所有特征之后做出的决定（结果）。标签和分支表示导致这些类标签的功能的连接。从根到叶的路径表示分类规则，完全通过生成决策规则来解决分类和回归问题。(因最近工作忙，具体内容后续逐步编写)一、数...

2020-04-18 22:03:49 132

原创学习笔记之逻辑回归

引言：今天我们学习逻辑回归。我们都知道线性回归模型是y=wTX+by=w^TX+by=wTX+b,我们对他进行变形，得到lny=wTX+blny=w^TX+blny=wTX+b,这就是“对数线性回归”(logit linear regression),就是我们所说的逻辑回归。再变形y=ewTX+by=e^{w^TX+b}y=ewTX+b，一般地，把y=f(wTX+b)y=f(w^TX+b)y=f...

2020-04-12 20:43:18 221

原创学习笔记之模型正则化

我们前面提到过，降低方差的方法有模型正则化，此方法也是最重要提供模型泛化能力方法。我们今天了解L1和L2两种正则化方法。用到正则化的算法有Lasso回归、岭回归、支持向量机等。一、模型正则化概念模型正则化（Regularization），对学习算法的修改，限制参数的大小，减少泛化误差而不是训练误差。在使用比较复杂的模型，去拟合数据时，很容易出现过拟合现象(训练集表现很好，测试集表现较差)，这...

2020-04-04 20:22:07 3186

原创学习笔记之多项式回归和Pipeline及偏差和方差

今天我们简单谈下，多项式回归和Pipeline的应用。之前我们了解了线性回归，线性回归的假设条件是：数据存在线性关系。并不是所有的数据具有线性关系。我们想要使用回归，可以对特征进行升维处理，转化成多项式回归。一、多项式回归研究一个因变量与一个或多个自变量间多项式的回归分析方法，称为多项式回归（Polynomial Regression）。多项式回归是线性回归模型的一种，其回归函数关于回归系数...

2020-04-03 23:50:52 892

原创学习笔记之梯度下降算法

梯度下降(Gradient Descent, GD)是目前机器学习、深度学习解决最优化问题的算法中，最核心、应用最广的方法。它不是一个机器学习算法，而是一种基于搜索的最优化方法。其作用是用来对原始模型的损失函数进行优化，以便寻找到最优的参数，使得损失函数的值最小。也就是，用已知训练集数据寻找最优得参数，从而找到最优得拟合模型。哪什么是梯度下降呢？一、概念梯度是向量，和参数维度一样。简单地来说，...

2020-03-29 14:41:31 344

原创学习笔记之线性回归

参考文章：1、https://mp.weixin.qq.com/s/ESKQKi_1K_WPXNistizDVw2、[https://mp.weixin.qq.com/s/siFRKWLhGOGJCCMjzB7R7A(https://mp.weixin.qq.com/s/siFRKWLhGOGJCCMjzB7R7A)3、https://mp.weixin.qq.com/s/gJU4oJufOF...

2020-03-20 22:40:33 378

原创数据预处理

归一化处理

2020-03-15 11:43:34 525

原创线性回归评价指标

本文参考饼干Japson《模型之母：线性回归的评价指标》编写今天，我们学习线性回归算法的评价指标——MSE、RMSE、MAE、R Square。一、了解线性回归算法的衡量标准引用饼干Japson的话。已知训练数据样本x、y，找到a和b的值，使∑i=1n(y(i)−ax(i)−b)2\sum_{i=1}^{n} (y^{(i)}-ax^{(i)}-b)^2∑i=1n(y(i)−ax(i)−b...

2020-03-08 00:02:45 2596

原创机器学习算法总结

Sklearn算法实现代码总结一、k-NN1、基本算法原理2、算法实现步骤二、决策树三、朴素贝叶斯四、线性回归五、岭回归六、Lasso七、逻辑回归八、K-Means九、DBSCAN十、PCA十一、随机森林分类器十二、随机森林回归器十三、AdaBoost分类器十四、AdaBoost回归器十五、SVM十六、基于用户的协同过滤十七、基于物品的协同过滤长达一个月的机器学习暂时告一段落，葵锅我把每天积累的...

2019-12-05 22:14:19 192

原创基于聚类的个性化推荐电商案例分析总结

List item

2019-09-25 00:55:36 11558 3

原创 sklearn.metrics.roc_curve使用简要说明

sklearn.metrics.roc_curve使用简要说明背景说明TP、TN、FP、FN概念TPR、TNR、FPR、FNR概念功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的...

2019-09-25 00:52:08 18522 7

sun91019718的博客

原创评分卡项目总结

原创异常检测学习之高维数据