Pandas
文章平均质量分 74
Pandas库的学习
bigdata7
Java学习
展开
-
# hive与mysql的安装与配置
hive与mysql的安装与配置hive是基于hadoop的数据仓库工具,将一定格式的文件映射为一张张表,因此hive版本和hadoop版本有对应关系,一定要检查自己安装的hadoop和hive版本是否兼容;hadoop版本:2.9.1,hive版本:3.2.1,jdk:1.8.0_162,mysql:8.0.20,jdbc:8.0.20在链接内自己可以查看hive,hadoop关系(http://hive.apache.org/downloads.html)查看hive版本:启动hive时会出现h原创 2022-01-12 18:23:19 · 962 阅读 · 0 评论 -
pandas 10数据预处理
文章目录3.数据清洗3.1检测与处理缺失值1.缺失值的检测:2.缺失值的统计:3.缺失值的处理<1>.删除缺失值: `dropna(axis=0, how='any', thresh=None, subset=None, inplace=False)`<2>.填充缺失值:<3>.DataFrame中用均值填充:3.2检测与处理重复值<1>.检测<2>.处理:3.3检测与处理异常值<1>.散点图<2>.箱型图<3>原创 2021-05-22 17:30:38 · 352 阅读 · 0 评论 -
数据处理模块(numpy,panads)-案例
数据处理(panads与numpy)模块#读取数据import pandas as pdimport numpy as npfile_path = open('地址')file_date = pd.read_csv(file_path)file_date.head()##tail()#数据预处理file_date.duplicated()#重复值检测file_date = file_date.drop_duplicates()#删除重复值file_date = file_date.dr原创 2020-11-03 16:09:22 · 622 阅读 · 0 评论 -
pandas9 合并数据
文章目录2.合并数据2.1 merge合并数据2.2concat数据连接2.3combine_first合并数据2.合并数据2.1 merge合并数据python中的merge函数是通过一个或多个键将两个DataFrame按行合并起来,与SQL中的join用法类似。merge(left, right, how='inner', on=None, left_on=None, right_on=None, left_index=Flase, right_index=Flase, sort=Flase,原创 2021-05-08 11:29:07 · 188 阅读 · 1 评论 -
pandas8 数据的载入
文章目录1.数据载入1.1读写文本文件(1)文本文件的读取:(2)文本文件的存储1.2读写excel文件t(1).pandas 的read_excel函数可以读取“xls”和“xlsx”两种excel文件(2).Excel文件的存储1.数据载入1.1读写文本文件(1)文本文件的读取:文本文件是一种由若干个字符构成的计算机文件,典型的一种顺序文件。CSV是一种逗号分隔的文件格式,分隔符不一定是逗号,又叫做字符分隔文件,文件以纯文本形式存储表格数据(数字和文本)。在pandas中用read_table原创 2021-05-08 11:28:08 · 229 阅读 · 1 评论 -
pandas1 数据结构
文章目录1. pandas的数据结构series:一维数组对象,通过索引来访问DataFrame:有一组有序的列,表格型的数据结构索引对象查看DataFrame的常用属性1. pandas的数据结构Series:类似于数组DataFrame:类似于表格Panel:Excel多表单Sheet【不常用】series:一维数组对象,通过索引来访问1.创建:可通过列表和字典来创建import pandas as pdimport numpy as nps1 = pd.Series([1,4,'原创 2021-05-08 11:23:06 · 137 阅读 · 2 评论 -
pandas7 Pandas可视化
7.Pandas可视化Pandas中集成了Matplotlib中的基础组件,绘图便捷。线形图线形图一般用于描述两组数据之间的趋势。Pandas库中的Series和DataFrame中都有绘制各类图表的plot方法,默认绘制线形图。import numpy as npimport pandas as pdimport matplotlib.pyplot as plt%matplotlib inline#线形图Seriesobj = pd.Series(np.random.normal(siz原创 2021-05-08 11:26:41 · 583 阅读 · 2 评论 -
pandas6 数据透视表
6.数据透视表数据透视表(Pivot Table)是数据分析中常见的工具之一,根据一个或多个键值对对数据进行聚合,根据列或行的分组键将数据划分到各个区域。透视表groupby()、pivot_table():均可以实现透视功能。pivot_table(data, values=None, index=Nane, columns=None, aggfunc='mean', fill_value=None, margins=False, dropna=True, margins_name='All')原创 2021-05-08 11:26:20 · 278 阅读 · 0 评论 -
pandas5 数据分组与聚合
5.数据分组与聚合数据分组1.groupby方法:DataFrame.groupby(by=None, axis=0, level=None, as_index=True, sort=True, group_keys=True, squeeze=False)参数名称参数说明by可以传入函数、字典、Series等,用于分组的依据条件axis0或者1,表示操作的轴方向默认按列操作,取1按行操作level接收int或者索引名,代表标签所在的级别,默认Noneas_原创 2021-05-08 11:25:58 · 717 阅读 · 1 评论 -
pandas3 DataFrame数据的查询编辑
3.DataFrame数据的查询和编辑查询【一般都是通过索引来操作的】1.选取列通过列索引标签或者属性的方式可以单独获取DataFrame的列数据,返回数据类型为Series。在选取列时不能使用切片的方式,超过一个列名用df[['列名1','列名2']]#选取列import pandas as pdimport numpy as npdata = { 'name':['张三','李四','王麻子'], 'age':[21,19,23], 'address':['兰州',原创 2021-05-08 11:24:35 · 1167 阅读 · 0 评论 -
pandas4 pandas的数据运算
4.pandas数据运算算术运算如果有相同索引则进行算术运算,如果没有则会进行数据对齐,但会引入缺失值。对于DataFrame类型,数据对齐的操作会同时发生在行和列上。import pandas as pdimport numpy as np##Series相加obj1 = pd.Series([1,4,-1,9,0,-8], index=['a','b','d','e','f','g'])obj2 = pd.Series([4,9,0,-4,-1,10], index=['a','c','原创 2021-05-08 11:25:11 · 410 阅读 · 2 评论 -
pandas2 索引操作
2.Pandas的索引操作索引对象是无法修改的,因此重建索引是指对索引的重新排序而不是重新命名,如果某个索引值不存在的话会引入缺失值。重建索引1.重建索引import pandas as pdimport numpy as npobj = pd.Series([3,4.5,9,0], index = ['a','c','b','d'])print(obj)obj.reindex(['a','b','c','d','e'])》》》》》》结果:a 3.0c 4.5b 9原创 2021-05-08 11:23:59 · 369 阅读 · 0 评论