![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据分析和数据挖掘
AppleYRY
求其上者得其中,求其中者得其下。
展开
-
将txt文件数据读入矩阵的简单方法(python3.8)
实例程序:from numpy import *A=zeros((8,19),dtype=float) #先创建一个8*19的全零矩阵A,并将数据设置为float类型f=open('f.txt')lines=f.readlines() #将全部数据读到一个lines中A_row=0 #表示矩阵的行,从0开始for line in lines: list=line.strip('\n').split('\t') A[A_row:]=list[0:19] A_原创 2022-01-07 16:09:33 · 1382 阅读 · 0 评论 -
dict数据结构在保存为csv数据类型时,如何克服ValueError: arrays must all be same length异常?已解决
import pandas as pda={'a1':[1,2,3,4],'a2':[2,3],'a3':[3,4,5,6,7,8,9]}print(pd.DataFrame.from_dict(a,orient='index').T)这里我添加了**.T**转置,可以将键值对的键作为列名;输出: a1 a2 a30 1.0 2.0 3.01 2.0 3.0 4.02 3.0 NaN 5.03 4.0 NaN 6.04 NaN NaN 7原创 2021-09-28 15:52:38 · 347 阅读 · 0 评论 -
如何快速提取二维数组的不连续数据
代码import numpy as np a=np.array([[1,2,3,4,5],[2,3,4,5,6],[12,23,34,56,54]])print(a.take([1,3,4],1))print(a.take([1,3,4],1).take([0,1],0))结果[[ 2 4 5] [ 3 5 6] [23 56 54]][[2 4 5] [3 5 6]]归纳a.take([1,3,4],1):抽取维度1的第1,3,4位置的元素,通常1表示列。take([原创 2021-09-13 20:42:09 · 531 阅读 · 0 评论 -
如何暴力转置dict类型的DataFrame结构数据?
继上次数据分析代码由于dict类型的键Key太多,保存数据时,效果并不理想。新需求:在已有dict 数据格式前提下,将key 和 values 转置,以达到更好的保存数据的。代码import pandas as pd import numpy as np import os file_path=r"G:\HEPS_NAMI\results" #存放所有文件名file_list=[]#存放所有子文件夹下对应的文件名file_dict={}for iroot,idirs,ifiles原创 2021-09-13 16:27:07 · 162 阅读 · 0 评论 -
python如何简单粗暴的遍历文件夹中的子文件夹并读取某特定名称的.csv类型文件
python如何简单粗暴的遍历文件夹中的子文件夹并读取某特定名称的.csv类型文件一言不合上代码:import pandas as pd import os import numpy as np file_path=r"F:\results"#存放所有文件名file_list=[]#存放所有子文件夹下所对应的文件名file_dict={}for iroot,idirs,ifiles in os.walk(file_path): if not idirs: fil原创 2021-09-12 20:52:02 · 576 阅读 · 0 评论 -
python给csv文件添加表头
话不多说,上代码:import pandas as pd import numpy as np data=pd.read_csv(r'C:\2020_12_21_16_43_01_energy_scan_crl.csv',header=None,names=['E','n1','n2','n3','n4','n5'])data.to_csv('2020_12_21_16_43_01_energy_scan_crl.csv',index=False)注意:index无表头时,不能是False,否原创 2020-12-22 10:47:19 · 12049 阅读 · 2 评论 -
数据分析2_特征编码和标签编码的区别
1 类别特征编码类别特征编码和标签编码区别:特征编码:1,顺序编码:OrdinalEncoder()2,独热编码:OneHotEncoder()标签编码:1, 二值编码:LabelBinarizer()2,标签编码:LabelEncoder()不要混淆。1.1 特征编码:示例1:伪代码from sklearn.preprocessing import OrdinalEncoderimport pandas as pd #1,导入数据file_path=r" "fd=pd.read原创 2020-08-29 22:21:20 · 1473 阅读 · 0 评论 -
数据分析1_缺失值插补
1 基本概念1.1 按比例缩放 MinMaxScaler1.2 标准差缩放 StanderScaler1.3 稀疏矩阵的缩放 MaxAbsScaler–有0的矩阵不适合用实例import numpy as npfrom sklearn.preprocessing import MinMaxScaler #等比例缩放#1导入数据x_train = np.array([ [1,2,5], [-1,5,2], [-2,4,8], [3,-5,-7] ])#原创 2020-08-28 15:28:01 · 837 阅读 · 0 评论 -
数据分析和数据挖掘
什么是数据分析与数据挖掘数据分析:对已知数据进行分析,然后提取一些有价值的信息;(比如:统计出平均数;标准差等信息)数据挖掘:对大量的数据进行分析挖掘,得到一些未知的,有价值的信息等。(比如从网站的用户或用户行为数据中挖掘出用户其潜在需求信息,从而对网站进行改善)—已知到未知关系:数据分析和数据挖掘密不可分,数据挖掘是数据分析的提升。能做什么:发现有联系事物之间的规律;数据规律的探索;...原创 2019-11-27 09:44:41 · 527 阅读 · 0 评论