数据分析和数据挖掘
AppleYRY
求其上者得其中,求其中者得其下。
展开
-
将txt文件数据读入矩阵的简单方法(python3.8)
实例程序: from numpy import * A=zeros((8,19),dtype=float) #先创建一个8*19的全零矩阵A,并将数据设置为float类型 f=open('f.txt') lines=f.readlines() #将全部数据读到一个lines中 A_row=0 #表示矩阵的行,从0开始 for line in lines: list=line.strip('\n').split('\t') A[A_row:]=list[0:19] A_原创 2022-01-07 16:09:33 · 1411 阅读 · 0 评论 -
dict数据结构在保存为csv数据类型时,如何克服ValueError: arrays must all be same length异常?已解决
import pandas as pd a={'a1':[1,2,3,4],'a2':[2,3],'a3':[3,4,5,6,7,8,9]} print(pd.DataFrame.from_dict(a,orient='index').T) 这里我添加了**.T**转置,可以将键值对的键作为列名; 输出: a1 a2 a3 0 1.0 2.0 3.0 1 2.0 3.0 4.0 2 3.0 NaN 5.0 3 4.0 NaN 6.0 4 NaN NaN 7原创 2021-09-28 15:52:38 · 365 阅读 · 0 评论 -
如何快速提取二维数组的不连续数据
代码 import numpy as np a=np.array([[1,2,3,4,5],[2,3,4,5,6],[12,23,34,56,54]]) print(a.take([1,3,4],1)) print(a.take([1,3,4],1).take([0,1],0)) 结果 [[ 2 4 5] [ 3 5 6] [23 56 54]] [[2 4 5] [3 5 6]] 归纳 a.take([1,3,4],1):抽取维度1的第1,3,4位置的元素,通常1表示列。 take([原创 2021-09-13 20:42:09 · 568 阅读 · 0 评论 -
如何暴力转置dict类型的DataFrame结构数据?
继上次数据分析代码 由于dict类型的键Key太多,保存数据时,效果并不理想。 新需求:在已有dict 数据格式前提下,将key 和 values 转置,以达到更好的保存数据的。 代码 import pandas as pd import numpy as np import os file_path=r"G:\HEPS_NAMI\results" #存放所有文件名 file_list=[] #存放所有子文件夹下对应的文件名 file_dict={} for iroot,idirs,ifiles原创 2021-09-13 16:27:07 · 196 阅读 · 0 评论 -
python如何简单粗暴的遍历文件夹中的子文件夹并读取某特定名称的.csv类型文件
python如何简单粗暴的遍历文件夹中的子文件夹并读取某特定名称的.csv类型文件 一言不合上代码: import pandas as pd import os import numpy as np file_path=r"F:\results" #存放所有文件名 file_list=[] #存放所有子文件夹下所对应的文件名 file_dict={} for iroot,idirs,ifiles in os.walk(file_path): if not idirs: fil原创 2021-09-12 20:52:02 · 597 阅读 · 0 评论 -
python给csv文件添加表头
话不多说,上代码: import pandas as pd import numpy as np data=pd.read_csv(r'C:\2020_12_21_16_43_01_energy_scan_crl.csv',header=None,names=['E','n1','n2','n3','n4','n5']) data.to_csv('2020_12_21_16_43_01_energy_scan_crl.csv',index=False) 注意: index无表头时,不能是False,否原创 2020-12-22 10:47:19 · 12147 阅读 · 2 评论 -
数据分析2_特征编码和标签编码的区别
1 类别特征编码 类别特征编码和标签编码区别: 特征编码:1,顺序编码:OrdinalEncoder() 2,独热编码:OneHotEncoder() 标签编码:1, 二值编码:LabelBinarizer() 2,标签编码:LabelEncoder() 不要混淆。 1.1 特征编码: 示例1:伪代码 from sklearn.preprocessing import OrdinalEncoder import pandas as pd #1,导入数据 file_path=r" " fd=pd.read原创 2020-08-29 22:21:20 · 1533 阅读 · 0 评论 -
数据分析1_缺失值插补
1 基本概念 1.1 按比例缩放 MinMaxScaler 1.2 标准差缩放 StanderScaler 1.3 稀疏矩阵的缩放 MaxAbsScaler–有0的矩阵不适合用 实例 import numpy as np from sklearn.preprocessing import MinMaxScaler #等比例缩放 #1导入数据 x_train = np.array([ [1,2,5], [-1,5,2], [-2,4,8], [3,-5,-7] ]) #原创 2020-08-28 15:28:01 · 848 阅读 · 0 评论 -
数据分析和数据挖掘
什么是数据分析与数据挖掘 数据分析:对已知数据进行分析,然后提取一些有价值的信息;(比如:统计出平均数;标准差等信息) 数据挖掘:对大量的数据进行分析挖掘,得到一些未知的,有价值的信息等。(比如从网站的用户或用户行为数据中挖掘出用户其潜在需求信息,从而对网站进行改善)—已知到未知 关系: 数据分析和数据挖掘密不可分,数据挖掘是数据分析的提升。 能做什么: 发现有联系事物之间的规律;数据规律的探索;...原创 2019-11-27 09:44:41 · 541 阅读 · 0 评论