数据挖掘
狂奔的 蜗牛
莫问前程凶吉,但求落幕无悔!
展开
-
python 数据清洗思维导图
原创 2021-03-09 15:15:26 · 374 阅读 · 0 评论 -
将整个数据类型为object 的 dataframe转为float
for col in data: data[col] = pd.to_numeric(data[col],errors='coerce')原创 2020-07-26 20:56:25 · 2175 阅读 · 0 评论 -
ADF——增广迪基—福勒检验 和 自相关
ADF主要是查看协整关系的一种有力方法。以猫和驴一起散步的的情形,相关性反映的是他们是否在同一个方向上前行。协整性反映的是一段时间后猫和驴之间的距离。#ADF检验,返回的第一值是ADF指标的值,第二个是P值,接着是时间延迟和样本量。最后一个是词典,给出了样本量的T分布import numpy as np import statsmodels.tsa.stattools as tsr = ...原创 2020-01-05 15:36:07 · 1483 阅读 · 0 评论 -
对CSV文件按时间段进行分组求和
from scipy import signal from scipy.ndimage import filtersimport matplotlib.pyplot as pltimport pandas as pdimport numpy as npimport matplotlib.pyplot as plotdata = pd.read_csv('C:\\Users\\1701...原创 2019-12-23 14:22:37 · 1335 阅读 · 0 评论 -
python生成各种随机数的方法
#随机数np.random.seed(0) #想要多次返回相同的随机数时用到np.random.random(3) #生成0,1之间的三个随机数array([0.5488135 , 0.71518937, 0.60276338])np.random.randint(0,11,3) #获取1到10之间的随机整数array([3, 7, 9])np.random.normal(0.0...原创 2019-12-22 23:26:59 · 453 阅读 · 0 评论 -
特别简单的去重方法
a = [1,2,2,5,1,2,5,8,8,8,8,8,8,84,4,16,16,161,61,61,6,163,6,6,2,2]利用**set()**函数进行去重:原创 2019-12-20 19:43:21 · 235 阅读 · 0 评论 -
CSV文件保存时避免 重新生成 ‘行索引‘ 和 ‘’表头‘’
A.to_csv('C:\\Users\\1701\Desktop\\123.csv',index=False,header=False)A.to_csv('C:\\Users\\1701\Desktop\\123.csv',index=False,header=False)原创 2019-12-04 11:07:43 · 1343 阅读 · 0 评论 -
python将一列数字转换成n行
# -*- coding: utf-8 -*-"""将CSV文件中的一列按自己的意愿转换成n行"""data= pd.read_csv('C:\\Users\\1701\Desktop\\123.csv')#读地址a= data.ix[:,1]#每num个列表元素写入文件的一行num=20 #一行包括20个数file=open('C:\\Users\\1701\Desktop\\11...原创 2019-12-03 14:55:16 · 4250 阅读 · 1 评论 -
txt转CSV格式文件python
#-*-coding:utf-8 -*-import csvwith open('file.csv', 'wb') as csvfile: spamwriter = csv.writer(csvfile, dialect='excel') # 读要转换的txt文件,文件每行各词间以@@@字符分隔 with open('C:\\Users\\1701\Desktop\...原创 2019-12-01 18:59:28 · 286 阅读 · 0 评论 -
连续特征和离散特征
离散特征:其数值只能用自然数来表示,只能用计量单位统计,如个数,人数等连续特征:是按测量或者计量方法得到。连续特征是指在一段长度内可以任意获得的特征,其数值是不间断。比如[0,1]之间的数,可以取n个数。总之,记住,离散只能用自然数表示,是统计得到的。连续是按测量或者计量到得到数,比如各种传感器采集得到的数。...原创 2019-11-13 11:27:49 · 3833 阅读 · 0 评论 -
ParserError: Error tokenizing data. C error: Expected 60 fields in line 4491, saw 73
在读文件时加以去除错乱行:error_bad_lines=False原创 2019-10-25 14:32:13 · 410 阅读 · 0 评论 -
将DataFrame中的时间转换为时间戳
import pandas as pdimport numpy as npimport datetime,timedata = pd.read_csv('C:/Users/1701/Desktop/WT02122.csv',index_col=False)data['temp'] = pd.to_datetime(data.RecTm)data['temp1'] = data.temp....原创 2019-10-14 19:03:20 · 9428 阅读 · 1 评论 -
分组与聚合——学习笔记
1、分组与聚合原理:分组是使用特定的条件将元数据进行划分为多个组。聚合是对每个分组中的数据执行某些操作,最后将计算结果进行整合。分组与聚合的过程大概分三步:拆分:将数据集按照一些标准拆分为若干组。应用:将某个函数或者方法应用到每个分组。合并:将产生的新值整合到结果对象中。2、通过 groupby() 方法将数据拆分成组常用的分组方式有4种: 列表或数组,其长度必须与分组的轴一...原创 2019-07-02 18:28:10 · 10813 阅读 · 0 评论 -
小波滤波小波基、阈值、阈值函数的选择
1. 小波基的选择:小波基经典小波函数主要有haar小波、dbN小波、coifN小波、symlet小波、meyer小波等等选择小波基是常用的指标如下:(1)正交性小波基函数的正交性保证了小波变换能够将信号分解到相互正交的各个子空间中,并提高了离散小波变换的计算能力。(2)紧支性小波的紧支性使得小波变换能够对具有位置特性的信号进行有效地表示,且小波的支撑越小,其定位的精度越高,局部化能力...原创 2019-08-01 16:21:52 · 19269 阅读 · 1 评论 -
Pandas库学习笔记
1.Series的数组的每一个元素都有与之相关联的标签,标签存储在Index的数组中。默认是从0开始,也可自己定义。在参与运算时,标签也可以参与运算,它能够通过识别标签 对齐不一致的数据。2.对与Numpy中的数学函数,计算时必须指定出处np.3.isin()函数用来判断所属关系。判断给定的一列元素是否包含在数据结构中。isin()返回的是布尔值,可用筛选Series或者DataFrame中列...原创 2019-07-27 17:40:20 · 172 阅读 · 0 评论 -
python遍历创建多维列表
lists = [[] for i in range(3)] # 创建的是多行三列的二维列表for i in range(3): lists[0].append(i)for i in range(5): lists[1].append(i)for i in range(7): lists[2].append(i)print("lists is:", lists)...转载 2019-07-23 15:26:01 · 1709 阅读 · 0 评论 -
对数据集进行最小二乘拟合
# -*- coding: utf-8 -*-"""Created on Fri Jul 26 09:52:14 2019@author: 1701"""from scipy import signal import scipy as spimport pandas as pdimport numpy as npimport matplotlib.pyplot as p...原创 2019-07-26 15:26:30 · 1399 阅读 · 2 评论 -
解决列名前面的前置空格
news.columns = [x.strip() for x in news.columns]原创 2019-09-14 17:55:37 · 271 阅读 · 0 评论 -
ExecutableNotFound: failed to execute ['dot', '-Tsvg'], make sure the Graphviz executables are on yo
很多人会没装graphviz-2.38.msi,画出一个决策树的时候会报错,下载地址是:https://graphviz.gitlab.io/_pages/Download/Download_windows.html画决策树的代码还要加上Graphviz2.38绝对路径的一段代码import osos.environ【“PATH”】 += os.pathsep + ‘C:/Program F...原创 2019-09-18 20:54:30 · 763 阅读 · 0 评论 -
ValueError: Unknown label type: 'unknown'
出错的原因是数据的格式问题,我的问题是数据出现了object的文本类型将x,y转为int类型后可以了。y=y.astype(‘int’)原创 2019-09-26 16:40:52 · 8404 阅读 · 0 评论 -
小波滤波原理——极力推荐的资料
https://wenku.baidu.com/view/5b1abd048e9951e79b8927de.html原创 2019-08-01 16:23:29 · 7747 阅读 · 0 评论 -
Numpy学习笔记
1.如果想遍历矩阵的每个元素,用for循环遍历a.flatimport pandas as pdimport numpy as npa=np.arange(10,19).reshape(3,3)for i in a.flat: print(i)2.如果想用函数处理每一行或者每一列,返回一个值作为结果,最好用纯NUMPY方法:apply_along_axis()函数这个函数:聚...原创 2019-07-25 22:00:55 · 154 阅读 · 0 评论 -
数据仓库与数据库的不同
数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策。所谓的(1) 面向主题:指数据仓库中的数据是按照一定的主题域进行组织。(2)集成:指对原有分散的数据库数据经过系统加工, 整理得到的消除源数据中的不一致性。(3...转载 2019-06-28 22:36:26 · 557 阅读 · 0 评论 -
常用的统计分析方法-相似度计算
基于欧几里得距离的相似度计算欧几里得相似度计算是一种基于用户之间直线距离的计算公式。它用来表示三维空间中两个点的真实距离。两个物品或者用户距离越大,可以看到其相似度越小;距离越小则相似度越大。第二种:基于余弦角度的相似度计算如果两个目标较为相似,那么线段所形成的夹角越小。如果两个用户不相近,那么两条射线所形成的夹角越大。可以用夹角的大小反应目标之间的相似性。两者的...原创 2019-06-28 22:00:56 · 3845 阅读 · 0 评论 -
机器学习核心算法
1.回归/分类树2.降维(PCA、MDS、tSNE等)3.经典的前馈神经网络4.Bagging ensembles方法(随机森林、KNN回归集成)5.Boosting ensemles方法(梯度提升,XGBoost算法)6.参数调整或设计方案的优化算法(遗传算法、量子启发式演化算法、模拟退火、粒子群优化)7.拓扑数据分析工具,特别适用于小样本量的无监督学习(持续同调、Mor...原创 2019-06-28 10:09:54 · 400 阅读 · 0 评论 -
常用的统计模型
1.广义线性模型(是多数监督机器学习方法的基础,如逻辑回归和Tweedie回归)2.时间序列方法(ARIMA ,SSA,基于机器学习的方法)3.结构方程建模(针对潜变量之间关系进行建模)4.因子分析(调查设计和验证的探索型分析)5.功效分析/实验分析(特别是基于仿真的实验设计,以避免分析过度)6.非参数检验(MCMC)7.K均值聚类8.贝叶斯方法(朴素贝叶斯、贝叶斯模型平...原创 2019-06-28 09:51:01 · 19332 阅读 · 0 评论 -
特性化、区分、关联和相关性分析、分类、回归、聚类、离群点分析定义
数据特征化:是目标数据的一般特性或特征的汇总。数据特征化的输出可以由多种形式提供,例如饼图、条图、曲线、多维数据立方体、交叉表在内的多维数表。数据区分:是将目标数据与其他对比类数据进行比较。挖掘频繁模式、关联和相关性频繁模式包括:频繁项集、频繁子序列、频繁子结构。频繁项集:频繁的在事物数据集中一起出现的商品的集合。频繁子序列:如先购买相机,在购买三脚架,在购买闪光灯这样的一个频繁的模式就是频繁...转载 2019-06-24 22:41:28 · 5350 阅读 · 0 评论 -
什么是数据挖掘
**什么是数据挖掘**数据挖掘是从大量数据中挖掘有趣模式和知识的过程。数据源包括数据库、数据仓库、Web、其他信息存储库或者动态的流入系统的数据。数据挖掘有一个流行术语:数据中的知识发现(KDD)有趣的模式代表知识一个有趣的模式它在某种确信度上对于检验数据是有效的、新颖的、潜在有用的,并且易于被人理解。数据挖掘的一个基本步骤为:1、数据清理:消除噪声和删除不一致的数据。2、数据...转载 2019-06-24 22:24:56 · 575 阅读 · 0 评论 -
'scrapy' 不是内部或外部命令,也不是可运行的程序 或批处理文件。
我是在Anadonda Prompt上安装scrapy,安装后输入scrapy shell启动指令时显示’scrapy’ 不是内部或外部命令,也不是可运行的程序 或批处理文件。然后在网上找了好多处理方法,最后解决了这个问题。我的电脑是W10,anadonda3,python3.7解决办法第一步:卸载scrapy , pip uninstall scrapy第二步:http://www.l...原创 2019-06-27 11:08:03 · 3631 阅读 · 0 评论 -
python将多个CSV文件合并为一个CSV文件
“”"Created on Wed Jul 17 18:42:34 2019将多个CSV文件合并为一个CSV,切记将分csv的表头删掉再合并@author: 1701“”"import osimport pandas as pdimport globcsv_list = glob.glob(‘C:/Users/1701/Desktop/1/*.csv’)print(u’共发现%s...原创 2019-07-18 08:44:29 · 8530 阅读 · 2 评论 -
利用小波滤波对数据集进行滤波
import pywtimport numpy as npimport pandas as pdimport matplotlib import matplotlib.pyplot as pltimport math####################一些参数和函数############def sgn(num): if(num > 0.0): r...原创 2019-07-30 17:50:07 · 1365 阅读 · 0 评论 -
对数据集每隔一段进行求平均值
# -*- coding: utf-8 -*-"""Created on Fri Jul 12 19:42:13 2019将数据集以1000为一段进行切分,并求每段的平均值@author: 1701"""import pandas as pdimport matplotlib.pyplot as pltimport numpy as npfrom scipy import sig...原创 2019-07-20 23:09:26 · 4181 阅读 · 0 评论 -
一篇很好的《数据分析》文章
以下内容来自云社区——https://cloud.tencent.com/developer/article/1039444扩展库 简介Numpy数组支持,以及相应的高效处理函数Scipy矩阵支持,以及相应的矩阵数值计算模块Matplotlib强大的数据可视化工具、作图库Pandas强大、灵活的数据分析和探索工具StatsModels 统计建模和计量经济学,包括描述统计、统计模型估计和...转载 2019-07-25 09:57:23 · 841 阅读 · 0 评论 -
关于拟合后出现多条直线的解决办法
这是我对数据集进行拟合后的结果,看着拟合结果还不错,但是有两条直线比较烦人。最后解决的办法是将数据集进行排序后进行拟合。原创 2019-07-20 12:47:12 · 2147 阅读 · 0 评论 -
模型---对子CSV文件循环遍历进行滤波去除离奇点(直接输数据集就能用)
对文件夹下的CSV集文件进行依次滤波去除离奇点,最后将文件保存为一个CSV文件原创 2019-07-24 11:32:12 · 231 阅读 · 0 评论 -
pandas数据处理--学习笔记
一:数据准备1.加载数据2.组装:(1)合并(2)拼接(3)组合二: 数据转换三:数据聚合数据准备:1.合并合并:用几个表共有的引用值从不同的表获取数据。操作的函数是 merge(),还可以指明基于哪一列进行合并。具体做法是添加on,如果两个基准列的名称不一样,则使用left_on和right_on.注意:如果两个列表没有共同的列是,合并会报错或者为空。有时合并操...原创 2019-07-28 22:45:58 · 239 阅读 · 0 评论 -
不确定每个元素的数组维度情况下将多维数组转换为二维数组
def dfs(tree): for i in tree: if type(i) == list: yield from dfs(i) else: yield treeB = list(dfs(A))如果不确定每个元素的数组维度,需要做一个深度遍历内容来自https://segmentfaul...转载 2019-07-23 18:10:01 · 294 阅读 · 0 评论 -
python将多维列表转换为一维列表
https://blog.csdn.net/xiongchengluo1129/article/details/78666638转载 2019-07-23 17:17:19 · 5563 阅读 · 0 评论 -
对文件夹下的子csv文件中的数据进行滤波,滤波后保存为一个CSV文件
此文件为大数据集进行滤波的一个模型。主要的功能是对数据集进行滤波,把离奇点进行删除,然后进行保存为一个CSV文件,以便后续的操作。原创 2019-07-23 15:49:50 · 1000 阅读 · 0 评论 -
将多个CSV文件合并为一个CSV,切记将分csv的表头删掉再合并
# -*- coding: utf-8 -*-"""Created on Wed Jul 17 18:42:34 2019将多个CSV文件合并为一个CSV,切记将分csv的表头删掉再合并@author: 1701"""import osimport pandas as pdimport globcsv_list = glob.glob('C:/Users/1701/Deskt...原创 2019-07-18 14:19:02 · 4890 阅读 · 1 评论