数据分析
文章平均质量分 73
寂ღ᭄秋࿐
这个作者很懒,什么都没留下…
展开
-
数据可视化——观察缺失值
1.缺失值产生产生原因缺失值的产生原因多种多样,主要分机械原因和人为原因。机械原因是由机械导致的数据缺失,比如数据存储的失败、存储器损坏、机械故障导致某段时间的数据未能收集(对于定时数据采集而言)。人为原因是由人的主观失误、历史局限或有意隐瞒造成的数据缺失。2.观察数据是否存在缺失值 当我们拿到一个数据集时,我们无法第一时间看出数据集中是否有缺失值,因此本次博客主要介绍7中方法来观察数据集中是否存在缺失值:首先我们先导入需要的数据:import numpy as npimp.原创 2022-03-31 16:46:20 · 2308 阅读 · 2 评论 -
快速进行OneHot编码——get_dummies()函数
当我们的数据中出现的离散的类别信息时,我们通常将其转化为onehot编码形式,以便于对于我们的模型能有更好的效果。此处主要介绍的是pandas库中的一个函数——get_dummies(),它能直接将我们需要转换的列直接进行转换,下面来具体介绍:1.参数说明pandas.get_dummies(data, prefix=None, prefix_sep='_', dummy_na=False, columns=None, sparse=False, drop_first=False)..原创 2022-03-29 16:49:42 · 7353 阅读 · 5 评论 -
pandas通过列表选取DataFrame中特定的行
导入pandasimport pandas as pd首先创建一个列表(列表中存储的是ID号)a = [0,3,8,10]然后创建一个DataFramedata = {'ID':[0,1,2,3,4,5,6,7,8,9], 'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada', 'Nevada', 'Ohio', 'Nevada', 'Ohio', 'Nevada'], 'year': [2000原创 2022-01-03 17:05:50 · 922 阅读 · 0 评论 -
Numpy
目录NumpyNumpy的概述:Numpy的部分功能Numpy的ndarray:一种多维数组对象1.创建ndarray2.ndarray的数据类型3.NumPy数组的运算4.数组的索引5.函数6.线性代数NumpyNumpy的概述: NumPy(Numerical Python) 是Python语言的一个扩展程序库,支持大量的维度数组与矩阵运算,此外也针对数组运算提供大量的数学函数库,主要用于数组计算。 NumPy通常与SciPy(Scie原创 2021-08-17 15:24:57 · 204 阅读 · 0 评论 -
pandas
主要的两个结构Series 和 DataFrame其导入方式为import pandas as pd打印导入的pandas版本pd.__version__打印出pandas库需要的所有的版本信息pd.show_versions()目录读取文件1.读取csv文件2.读取txt文件3.读取excel文件4.读取json文件5.其中参数的主要用法6.快速将文件格式转换为markdown形式Series1.Series的创建方式2.索引.原创 2021-12-23 21:22:36 · 1386 阅读 · 0 评论