![](https://img-blog.csdnimg.cn/20190918140129601.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
Python数据分析
文章平均质量分 56
Python数据分析
小旺不正经
阿里云专家博主、51CTO专家博主
展开
-
Pyecharts 绘制基本图 快速上手
Pyecharts 绘制基本图 快速上手折线图from pyecharts.charts import Lineimport pyecharts.options as optsx=['a','b','c','d','e','f']y=[10,12,26,23,25,25]y2=[41,92,15,34,25,45]c=( Line() .add_xaxis(x) # is_step 是否显示成阶梯图 .add_yaxis('利润',y,is_step=True)原创 2021-12-17 20:19:06 · 1158 阅读 · 0 评论 -
Pandas 停车场数据、数据分析数据可视化、实战练习(带资源)
Pandas 停车场数据、数据分析数据可视化、实战练习数据表停车时间数据分析import pandas as pdimport matplotlib.pyplot as pltdata=pd.read_excel('停车场信息表.xlsx')# 排除进入停车场未出停车场的车data=data.loc[data['timeout']!=0]data['timein']=pd.to_datetime(data['timein'])data['timeout']=pd.to_datetime(原创 2021-12-15 19:43:01 · 7286 阅读 · 27 评论 -
jieba分词库 快速干爆
jieba分词库 快速干爆三种分词模式:精确模式,试图将句子最精确地切开,适合文本分析;全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义;搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。jieba.cutjieba.cut 方法接受三个输入参数: 需要分词的字符串;cut_all 参数用来控制是否采用全模式;HMM 参数用来控制是否使用 HMM 模型返回的结构都是一个可迭代的 generator,可以使用 for 循环来获得原创 2021-12-14 10:55:20 · 1418 阅读 · 0 评论 -
Pandas 二手房数据清洗、可视化、实战练习(带源码、资源)
Pandas 二手房数据清洗、可视化、实战数据清洗使用pandas打开csv文件import pandas as pddata=pd.read_csv('data.csv')print(data)第一步 设置索引列import pandas as pddata=pd.read_csv('data.csv',index_col=0)print(data)index_col=0指定第一列为索引列第二步 去单位(总价、建筑面积、单价字段)使用map或apply 加lambda表达式原创 2021-12-12 18:55:15 · 7557 阅读 · 2 评论 -
Pandas 多个工作表、工作簿
Pandas 多个工作表、工作簿Pandas 读取多个工作表import pandas as pddf=pd.read_excel('附件1.xlsx',sheet_name=None)for sheetname, data in df.items(): print(sheetname) print(data)注意一定要设置sheet_name=None设置后读取的数据返回的结果是按 工作表名:数据 的字典不设置 默认读取第一个工作表内容读取一组工作表import p原创 2021-12-09 19:50:15 · 1523 阅读 · 0 评论 -
Pandas操作入门
Pandas操作入门索引创建&增加方法一:import pandas as pddf=pd.read_excel('text.xlsx',index_col='name')print(df)方法二:import pandas as pddf=pd.read_excel('text.xlsx')df=df.set_index('name')print(df)多层索引import pandas as pddf=pd.read_excel('text.xlsx')df原创 2021-12-07 18:41:03 · 1090 阅读 · 0 评论 -
Pandas数据读取与输出
Pandas数据读取与输出Pandas中常见数据的读取和输出格式文件格式读取函数写入函数binaryExcelrean_excelto_exceltextCSVread_csv、read_tableto_csvtextJSONread_jsonto_jsontext网页HTML表格read_htmlto_htmltext本地剪贴板read_clipboardto_clipboardSQLSQL查询数据库read_sq原创 2021-12-06 14:29:54 · 6307 阅读 · 0 评论 -
Matplotlib绘制图形
Matplotlib绘制图形基本参数设置标题 plt.title()设置坐标轴标签 ply.xlabel() plt.ylabel()设置坐标轴范围 plt.xlim() plt.ylim()设置图例 plt.legend()设置图像大小 plt.figure()折线图plot()参数:x x轴上的数值y y轴上的数值ls 线条风格lw 线条宽度c 颜色label 标签文本import pandas as pdimport numpy as npimport matplo原创 2021-11-30 14:43:26 · 1270 阅读 · 0 评论 -
Pandas图形绘制
Pandas图形绘制Pandas的DataFrame和Series在Matplotlib基础上封装了一个简易的绘图函数,使得数据处理过程中方便可视化查看结果。折线图import pandas as pdimport numpy as npimport matplotlib.pyplot as pltdata=np.random.randn(5,2)*10df=pd.DataFrame(np.abs(data),index=[1,2,3,4,5],columns=[1,2])df.plot()原创 2021-11-28 23:56:53 · 3009 阅读 · 0 评论 -
数据优化-多层索引
数据优化-多层索引多层索引创建环境:Jupyterimport numpy as npimport pandas as pda=pd.DataFrame(np.random.random(size=(4,4)),index=[['上半年','上半年','下半年','下半年'], ['一季度','二季度','三季度','四季度']], columns=[['蔬菜','原创 2021-11-21 10:39:00 · 927 阅读 · 6 评论 -
数据分析-数据预处理
数据分析-数据预处理处理重复值duplicated( )查找重复值import pandas as pda=pd.DataFrame(data=[['A',19],['B',19],['C',20],['A',19],['C',20]], columns=['name','age'])print(a)print('--------------------------')a=a.duplicated()print(a)只判断全局不判断每个any()imp原创 2021-11-20 10:14:44 · 1038 阅读 · 1 评论 -
txt、Csv、Excel、JSON、SQL文件读取(Python)
txt、Csv、Excel、JSON、SQL文件读取(Python)txt文件读写创建一个txt文件f=open(r'text.txt','r',encoding='utf-8')s=f.read()f.close()print(s)open( )是打开文件的方法'text.txt’文件名 在同一个文件夹下所以可以省略路径如果不在同一个文件夹下 ‘xxx/xxx/text.txt’ 文件名前加路径encoding:设置字符编码read( )是读取文件内容close( )是关闭文原创 2021-11-19 09:27:26 · 1085 阅读 · 1 评论 -
Pandas-快速上手
Pandas-快速上手Series对象Series是具有索引的一维矢量import pandas as pda=pd.Series(['a','b','c','d','e'],index=[1,2,3,4,5])print(a)print(a.index)print(a.values)index是索引对象,用于保存标签信息不设置index,Pandas会自动创建表示位置下标的索引values是保存元素值的数组不设置index的情况import pandas as pda=pd.原创 2021-11-18 14:39:14 · 888 阅读 · 0 评论 -
NumPy-快速上手
NumPy-快速上手数组的创建NumPy的特点是其N维数组对象ndarray。ndarray是一系列同类型数据的集合。ndarray对象用于存放同类型元素的多维数组。import numpy as npa=np.array([1,2,3])print(a)print(type(a))创建区间数组arange参数(初始值,结束值,步长) 不包含结束值import numpy as npa=np.arange(1,10,3)print(a)b=np.arange(1,10,0.5原创 2021-11-17 09:02:54 · 362 阅读 · 0 评论 -
numpy-生成数据
numpy-生成数据生成全0矩阵import numpy as npa=np.zeros(5)# 设置数据类型b=np.zeros(5,dtype=int)# 设置维度c=np.zeros(shape=(5,6),dtype=int)print(a)print(b)print(c)生成全1矩阵import numpy as npa=np.ones(5)b=np.ones(5,dtype=int)c=np.ones(shape=(5,6),dtype=int)print(原创 2021-11-16 14:57:35 · 2571 阅读 · 0 评论 -
Python数据分析-matplotlib-绘制
matplotlib柱形图条形图折线图饼图和圆环图分离饼图块圆环图柱形图bar()函数绘制柱形图import matplotlib.pyplot as plx = [1,2,3,4,5,6,7]y = [15,69,85,12,36,95,11]pl.bar(x,y)pl.show()bar()函数的参数width和color设置每根柱子的宽度和颜色有中文时要添加pl.rcParams['font.sans-serif'] = ['FangSong']有负号时要添加pl.rcP原创 2021-08-25 00:23:52 · 717 阅读 · 9 评论 -
Python数据分析-pandas-数据运算
Python数据分析-pandas-数据运算统计求和求平均值求最值分组汇总创建数据透视表计算相关系数获取数值分布统计求和sum()函数对数据表的每一列数据分别进行求和import pandas as pda = pd.read_excel('test.xlsx',sheet_name=0)print(a)print('--------------')a = a.sum()print(a)单独对某一列进行求和import pandas as pda = pd.read_excel(原创 2021-08-22 20:28:31 · 778 阅读 · 4 评论 -
Python数据分析-pandas-数据表处理
转置数据表的行列直接调用DataFrame对象的T属性来转置行列import pandas as pda = pd.read_excel('test.xlsx',sheet_name=0)print(a)print('--------------')a = a.Tprint(a)运行结果:原数据与转置后的对比将数据表转换为树形结构使用stack()函数将数据表转换为树形结构import pandas as pda = pd.read_excel('test.xlsx',shee原创 2021-08-22 16:36:40 · 754 阅读 · 2 评论 -
Python数据分析-pandas-数据处理
插入数据pandas模块没有专门提供插入行的方法插入数据主要是指插入一列新的数据方法一以赋值的方式在数据表的最右侧插入列数据import pandas as pda = pd.read_excel('test.xlsx',sheet_name=0)print(a)print('--------------')a['学号'] = ['01','02','03','04']print(a)方法二用insert()函数在数据表的指定位置插入列数据第1个参数为插入列的位置;第2个参数为原创 2021-08-20 21:03:10 · 1435 阅读 · 18 评论 -
Python数据分析-pandas-查找替换数据
查找数据使用isin()函数查看数据表是否包含单个值或多个值import pandas as pda = pd.read_excel('test.xlsx',sheet_name=0)print(a)print('--------------')b = a.isin(['计算机',5000])print(b)判断数据表的某一列中是否有某个值import pandas as pda = pd.read_excel('test.xlsx',sheet_name=0)print(a)p原创 2021-08-20 16:24:24 · 1544 阅读 · 2 评论 -
Python数据分析-pandas-修改行标签和列标签
修改行标签和列标签使用set_index()函数修改行标签将“订单编号”列作为行标签import pandas as pda = pd.read_excel('test.xlsx',sheet_name=0)print(a)print('--------------')print(a.set_index('姓名'))使用rename()函数重命名行标签和列标签import pandas as pda = pd.read_excel('test.xlsx',sheet_name=0)原创 2021-08-20 11:47:59 · 10795 阅读 · 1 评论 -
Python数据分析-pandas-选择数据
选择行数据选择单行数据import pandas as pda = pd.read_excel('test.xlsx',sheet_name=0,index_col=0)print(a)print('--------------')print(a.loc['a1'])print('--------------')print(a.iloc[2])loc的“[ ]”中输入的是要选择的行的行标签iloc的“[ ]”中可以依据行序号(从0开始计数)选择单行数据选择多行数据import原创 2021-08-19 23:11:19 · 577 阅读 · 1 评论 -
Python数据分析-pandas-查看数据
查看数据的前几行使用DataFrame对象的head()函数来控制要显示的行数。默认显示5行import pandas as pda = pd.read_excel('test.xlsx',sheet_name=0)print(a.head(2))查看数据的行数和列数DataFrame对象的shape属性import pandas as pda = pd.read_excel('test.xlsx',sheet_name=0)print(a)print(a.shape)查看数原创 2021-08-19 21:04:26 · 947 阅读 · 0 评论 -
Python数据分析-pandas-读取数据
读取Excel工作簿数据import pandas as pda = pd.read_excel('test.xlsx',sheet_name=0)print(a)sheet_name指定从哪个工作表中读取数据注意:演示为工作簿于代码文件在同一个文件夹下如果两者的文件路径不同,则需要将第1个参数设置为绝对路径,如'D:\\Excel\\text.xlsx'。指定读取数据的列标签通过设置参数header来指定使用数据表的第几行(从0开始计数)的内容作为列标签。import pandas原创 2021-08-19 20:36:52 · 1656 阅读 · 0 评论 -
Python数据分析-pandas-创建数据结构
Series对象Series是一种类似于NumPy模块创建的一维数组的对象,与一维数组不同的是,Series对象不仅包含数据元素,还包含一组与数据元素对应的行标签。import pandas as pda = pd.Series(['A','B','C','D'])print(a)结构中的每个元素都有一个行标签,其值默认为从0开始的数字序列使用Series对象的参数index传入元素的行标签列表import pandas as pda = pd.Series(['A','B','C','原创 2021-08-19 17:07:32 · 538 阅读 · 0 评论 -
Python数据分析-NumPy模块-矩阵的运算
创建矩阵import numpya=numpy.mat([[1,2,3],[4,5,6]])print(a)数组转矩阵import numpya=numpy.array([[1,2,3],[4,5,6]])b=numpy.mat(a)print(a)print(b)矩阵的运算import numpya=numpy.mat([[1,2,3],[4,5,6]])b=numpy.mat([[1,2,3],[4,5,6]])print(a+b)print(a-b)c=nump原创 2021-08-09 21:27:04 · 510 阅读 · 0 评论 -
Python数据分析-NumPy模块-数组的运算
四则运算import numpya=numpy.array([[1,2,3,4],[5,6,7,8]])b=numpy.array([[9,10,11,12],[13,14,15,16]])c=a+bd=a-be=a*bf=a/bprint(c)print(d)print(e)print(f)结果:统计运算求和import numpya=numpy.array([[1,2,3,4],[5,6,7,8],[9,10,11,12]])a1=a.sum()a2=a.sum(原创 2021-07-23 20:59:35 · 631 阅读 · 0 评论 -
Python数据分析-NumPy模块-数组的处理
添加数组元素append()函数在数组的末尾添加元素from numpy import array,appenda=array([[1,2,3],[4,5,6]])b=append(a,[[1,2,3]])print(b)结果:二维数组变成了一维数组。不改变数组维度的情况下在数组末尾添加元素from numpy import array,appenda=array([[1,2,3],[4,5,6]])b=append(a,[[1,2,3]],axis=0)print(b)结原创 2021-07-22 20:28:26 · 2080 阅读 · 0 评论 -
Python数据分析-NumPy模块-数组的重塑与转置
一维数组的重塑将一行或一列的数组转换为多行多列的数组from numpy import arraya=array([1,2,3,4,5,6,7,8,9,10])b=a.reshape(5,2)c=a.reshape(2,5)print(b)print(c)结果:多维数组的重塑from numpy import arraya=array([[1,2,3,4],[5,6,7,8],[9,10,11,12]])b=a.reshape(4,3)c=a.reshape(2,6)prin原创 2021-07-22 15:42:56 · 758 阅读 · 1 评论 -
Python数据分析-NumPy模块-选取数组元素
一维数组的元素选取选取单个元素from numpy import arraya=array([1,2,5,48,62,9,4,7,2,3,6,9])# 正序索引,其值是从0开始计数print(a[0])print(a[4])# 倒序索引,其值是从-1开始计数print(a[-1])print(a[-5])]结果:选取连续的元素from numpy import arraya=array([1,2,5,48,62,9,4,7,2,3,6,9])print(a[1:6])pr原创 2021-07-21 18:41:23 · 2506 阅读 · 1 评论 -
Python数据分析-NumPy模块-查看数组属性
查看数组的行数和列数from numpy import arraya=array([[1,1],[2,2],[3,3]])print(a.shape)结果:提取数组的行数或列数from numpy import arraya=array([[1,1],[2,2],[3,3]])print(a.shape)print(a.shape[0])print(a.shape[1])结果:查看数组的元素个数from numpy import arraya=array([[1,1],[2原创 2021-07-20 21:21:28 · 729 阅读 · 2 评论 -
Python数据分析-NumPy模块-创建数组
NumPy模块最主要的特点就是引入了数组的概念。数组是一些相同类型的数据的集合,这些数据按照一定的顺序排列,并且每个数据占用大小相同的存储空间。要使用数组组织数据,首先就要创建数组。NumPy模块提供多种创建数组的方法。使用array()函数创建数组from numpy import arraya=array([1,2,3,4]) //使用array()函数基于列表创建一维数组b=array(['编号','数量','单价','金额'])print(a)print(b)结果:注意:同一个原创 2021-07-17 21:27:27 · 1040 阅读 · 1 评论