Python
文章平均质量分 51
博丽芙兰
这个作者很懒,什么都没留下…
展开
-
Python与数学——使用Processing绘制高次方程图像
首先绘制通用的作图网格,方便观察结果,具体步骤及说明在代码注释中给出,如下所示:# 1.设置图像的x值和y值范围# 设置x的最小值和最大值xmin = -10xmax = 10# y的最小值和最大值ymin = -10ymax = 10#计算x值和y值得范围rangex = xmax - xminrangey = ymax - ymin# 2.用比例尺放大图像坐标# 因为我们要作图的大小不是600像素*600 像素,而是xrange*yrange,所以要将图像中的坐标映射到 Pro原创 2021-06-27 20:52:32 · 1565 阅读 · 1 评论 -
Python-pandas拆分列与堆叠列
1.拆分列将原数据的指定列按照列的内容拆分为新的列(相当于Excel中的数据透视表)有原始数据格式如下:需要将type列拆分为按照type值为列,值为monetary值的表,如下:代码可以写为:#将原数据的指定列按照列的内容拆分为新的列def pivot(): table=pd.DataFrame({'cust_id':[10001,10001,10002,10002,10003], 'type':['Normal','Special原创 2020-08-10 12:13:50 · 3587 阅读 · 0 评论 -
Python探索性数据分析——异常数据的检测与处理、数据的描述(集中、分散、分布、相关关系、波动)、数据的推断(正态性检验、卡方检验、t检验)
目录一.异常数据的检测与处理1.异常数据检测与处理-基于箱线图2.异常数据检测与处理-基于正态分布特征二.数据的描述1.数据的集中趋势1.1.数据的集中趋势-平均值1.1.1.算数平均值1.1.2.加权平均值1.1.3.几何平均值1.2.数据的集中趋势-中位数和四分位数1.2.1.中位数1.2.2.四分位数1.3.数据的集中趋势-众数2.数据的分散趋势2.1.数据的分散趋势-方差与标准差2.2.数据的分散趋势-极差与四分位差2.3.数据的分散趋势-变异系数2.4.数据的分散趋势-describe方法3.数据原创 2020-07-15 13:06:47 · 3488 阅读 · 0 评论 -
Python常见数据处理技术——数据的概览与清洗、多表合并与连接、数据的汇总
内容概览:本文主要介绍有关数据探索和处理的常用技术,包括“脏”数据的判别与清洗、数据子集的筛选、多表之间的操作以及分组统计方法。由于针对具体操作相关文档太多,所以本文内容涉及具体操作较少,主要是讲方法。本文内所用到的包:import pandas as pdimport numpy as np一.数据的概览与清洗读入数据:data3=pd.read_excel(‘data3.xlsx’),本节之后操作以data3为基础1.数值类型的判断和转换拿到一个数据后,通常需要进行如下操作,这也是一原创 2020-07-14 17:08:32 · 1374 阅读 · 0 评论 -
Python——线性回归模型的应用
前言:线性回归模型属于经典的统计学模型,该模型的应用场景是根据已知的变量(即自变量)来预测某个连续的数值变量(即因变量)。例如餐厅根据媒体的营业数据(包括菜谱价格、就餐人数、预订人数、特价菜折扣等)预测就餐规模或营业额;网站根据访问的历史数据(包括新用户的注册量、老用户的活跃度、网站内容的更新频率等)预测用户的支付转化率;医院根据患者的病历数据(如体检指标、药物复用情况、平时的饮食习惯等)预测某种疾病发生的概率。由于针对具体操作相关文档太多,所以本文内容涉及具体操作较少,主要是讲方法。1.简单线性回归原创 2020-07-14 16:21:22 · 5926 阅读 · 0 评论 -
链家网沈阳二手房数据分析——从数据爬取到数据分析
数据爬取主要是通过使用requests实现的,鉴于爬取数据的流程简单以及电脑的性能所限,没有使用scrapy框架,而是使用where循环手动控制页码的形式,每次爬取5页信息,并将信息写入.csv文件中。得到数据后,首先看一下数据的描述性变量,通过print(data_read.describe())得到如下结果:观察网页,发现实际上当前区域只有1542套房源,可以得知数据里面包含了重复数据。这是由于在爬取信息时采用了手动改变页面的形式,每次爬取后在写入csv文件时,都会写入一个表头,所以造成了表头重复原创 2020-07-02 19:03:28 · 3361 阅读 · 1 评论 -
Python-pandas计算Excel每个工作簿的工作表中值的总和与平均值,连同原信息一起写入多个sheet
文件路径如下:ExcelPython.py是当前运行文件,红框内三个文件是原始数据文件,每个文件内有三个sheet,含日期类型。如下:我们要计算每个工作簿的工作表中值的总和与平均值,写入原文件(这里先复制出一份和原来一样的文件后写入新文件)知识点如下:pandas的函数、读取多个工作簿下的多个工作表、同时向一个Excel文件内写入多个sheet,一次写入多个Excel文件源码如下:含主要部分注释:#计算每个工作簿的工作表中值的总和与平均值,写入原文件(这里先复制出一份和原来一样的文件后写入新文件原创 2020-06-23 16:58:36 · 5018 阅读 · 0 评论 -
Python使用pandas对CSV进行操作(11种基础操作含源码)
源数据如下:含脏数据(price列)下列源码用到如下四个包:import pandas as pdimport globimport osimport csv目录1.基础文件读写(等同于copy文件)2.行中的值满足某个条件(含整理原始文件脏数据)3.行中的值满足某个集合4.行中的值匹配于某个模式5.选取特定的列(列索引值)6.选取特定的列(列标题)7.选取连续的行(丢弃不需要的行)8.添加标题行9.读取多个csv文件,包含去重10.计算每个文件中值的总和与平均值,写入新文件11.计算每个文件原创 2020-06-21 14:02:35 · 14811 阅读 · 0 评论 -
Python使用matplotlib展示中文条形图以及条形子图(包含简单本地数据整理)
爬了点二手房数据存储在了本地csv里,爬虫部分没什么难度,这次做一个简单的数据整理和利用matplotlib展示的案例。首先这是我们爬取到的数据:里面分别为楼盘名称、经纬度(这个是通过百度地图地理编码转的)、几室几厅、面积、总价格以及在二手房网站的关注度。我们用这个数据主要用来做两个事,分别是获取关注度TOP5的房产资源以及TOP5的小区名称。首先我们来分析下获取关注度TOP5的房产资源。在这里我们先对房产资源进行一个拼接,包括小区名称+几室几厅+面积,之后我们再按照关注度进行一个从大到小的逆排序原创 2020-06-18 16:57:52 · 1592 阅读 · 0 评论 -
Python使用requests爬取12306指定日期列车信息
本案例基于机械工业出版社出版的《Python网络爬虫从入门到精通》相关案例改写。使用Python版本为3.7,requests版本为2.23.0目标:抓取指定日期指定出发到达目的地的指定车次信息,如下:我们目标为抓取2020-06-21日沈阳到鞍山的G8070次列车信息。整个流程如下:首先在12306网站中我们进入图示页面,打开开发者控制台,我们发现了如下交互:查看query,可以看见网站使用get请求的URL,需要我们动态传入的有train_date(日期)、from_station(起始原创 2020-06-16 22:35:05 · 1734 阅读 · 0 评论