数据挖掘
使用python进行数据分析的笔记
LaoChen_ZeroonE
这个作者很懒,什么都没留下…
展开
-
计算平均数
算术平均数(Arithmetic Mean)1.计算公式2.优点:相比于中位数、众数,更少收到随机因素的影响3.缺点:更容易收到极端值(biased value)的影响几何平均数(Geometric Mean)1.计算公式2.优点:适用于对比率数据的平均,主要用于计算数据平均增长率调和平均数(Harmonic Mean)1.计算公式2.优点:计算平均速率,感觉很多paper都在用,用于计算平均速率平方平均数(Quadratic Mean)1.计算公式:2.优点:是2次方的广义平均数的原创 2021-04-13 21:22:33 · 876 阅读 · 0 评论 -
pandas 过滤数据
#!/usr/bin/env python# -*- coding: utf-8 -*-# @Author : LaoChen"""df = pd.DataFrame(np.random.randn(6,4), index=dates, columns=list('ABCD')) Out[9]: A B C D 2017-04-01 0.522241 0.495106 -0.268194原创 2021-04-13 21:18:27 · 342 阅读 · 0 评论 -
pandas 删除nan
#!/usr/bin/env python# -*- coding: utf-8 -*-# @Author : LaoChen"""创建DataFrame样例数据>>> import pandas as pd>>> import numpy as np>>> data = pd.DataFrame({'a': [1, 2, 4, np.nan,7, 9], 'b': ['a', 'b', np.nan, np.nan, 'd', 'e'原创 2021-04-13 21:17:04 · 457 阅读 · 0 评论 -
冒泡排序
原创 2021-03-08 23:14:02 · 140 阅读 · 0 评论 -
Python 激活函数
Python 实现激活函数#!/usr/bin/env python# -*- coding: utf-8 -*-# @Author : LaoChenimport numpy as npdef linear(x): r"""linear activation :math:`y = x` Arguments: x {lists or array} -- inputs Returns: array -- outputs原创 2021-03-01 23:07:16 · 607 阅读 · 0 评论 -
python 排列组合
python 排列组合#!/usr/bin/env python# -*- coding: utf-8 -*-# @Author : LaoChenimport itertools#组合a = itertools.permutations(['a','b','c'], 2)print(type(a))print(list(a))#排列a = itertools.combinations(['a','b','c'], 2)print(type(a))print(list(a原创 2021-03-01 23:02:46 · 81 阅读 · 0 评论 -
python 判断nan值
python 判断nan值#!/usr/bin/env python# -*- coding: utf-8 -*-# @Author : LaoChen"""None 和 nantype(None)-----------Nonetypetype(Nan)-------------float判断nan这里出了7个判断的方法,但实际有效的只有3个,还有半有效的~后四个方法则是只有np.nan可以判断自己的类型,其他三种没办法自己判断自己。也就是说:np.nan is np.nan是原创 2021-03-01 23:01:27 · 1412 阅读 · 0 评论 -
异常检测
异常检测前言异常检测算法基于曲线拟合的检测方法统计检测算法基于同期数据的检测方法基于同期振幅的检测方法基于环比数据的检测算法投票机制总结前言异常检测的场景很多,例如硬件的故障检测、流量的异常点的检测等场景。这篇博客我们针对的是时间序列的异常检测。时间序列异常的检测算法有很多,业界比较流行的比如普通的统计学习方法–3σ原则,它利用检测点偏移量来检测出异常。比如普通的回归方法,用曲线拟合方法来检测新的节点和拟合曲线的偏离程度,甚至有人讲CNN和RNN技术应用到异常点的检测。通过普通的阈值来检测流量异常的方原创 2020-09-27 20:53:07 · 3094 阅读 · 1 评论 -
时序数据特征提取
时序数据特征提取时间序列的表示方法分段线性表示分段线性表示符号化聚合近似时间序列的相似性度量方法Minkowski距离动态时间弯曲符号化距离基于模型的距离度量方法时间序列的特征提取方法基于统计特征的分类特征提取基于构建模型的分类特征提取基于变换的分类特征提取基于分形理论的分类特征提取特征提取在提高分类的准确性中起着非常关键的作用. 对时序特征提取的方法进行归纳分类, 将有利于对特征提取整体性, 全面性的认识. 回顾现有的时间序列中特征提取的方法, 将其总结为四大类, 它们分别是基于基本统计方法的特征提取、原创 2020-07-13 21:58:54 · 21669 阅读 · 2 评论 -
时间序列数据趋势分析 Cox-Stuart、Mann-Kendall、Dickey-Fuller
时序数据趋势检测斜率法Cox-Stuart检验Mann-Kendall检验稳定性检验滚动统计Dickey-Fuller(迪基-福勒检验、单根检验)时序数据趋势检测斜率法原理:斜率法的原理就是使用最小二乘等方法对时序数据进行拟合,然后根据拟合成的直线的斜率k判断序列的数据走势,当k>0时,则代表趋势上升;当k<0时,则代表趋势下降。优缺点:优点是方法简单;缺点是要求趋势是线性的,当数去波动较大时无法准确拟合。Cox-Stuart检验原理直接考虑数据的变化趋势,若数据有上升趋势,.原创 2020-06-04 22:21:24 · 14309 阅读 · 2 评论 -
Python社区发现—Louvain—networkx和community
社区如果一张图是对一片区域的描述的话,将这张图划分为很多个子图。当子图之内满足关联性尽可能大,而子图之间关联性尽可能低时,这样的子图可以称之为一个社区。社区发现算法社区发现算法有很多,例如LPA,HANP,SLPA以及Louvain,不同的算法划分社区的效果不尽相同。Louvain算法是基于模块度的社区发现算法,该算法在效率和效果上都表现较好,并且能够发现层次性的社区结构,其优化目标是最大化...原创 2020-03-15 22:51:59 · 28006 阅读 · 49 评论 -
Apriori关联分析与频繁项集
Apriori关联分析与频繁项集关联分析是一种在大规模数据集中寻找关系的任务。这些关系可以有两种形式:频繁项集或者关联规则。频繁项集(frequent item sets)是经常出现在一块的物品的集合,关联规则(association rules)暗示两种物品之间可能存在很强的关系。频繁项集是指那些经常出现在一起的物品集合,图中集合{葡萄酒,尿布,豆奶}就是频繁项集的一个例子。而尿布——葡萄...原创 2020-03-15 22:34:07 · 1873 阅读 · 0 评论