数据分析
Han-torch
这个作者很懒,什么都没留下…
展开
-
DataFrame在某一列中取符合条件的值
DataFrame在某一列中取符合条件的值,实例为在时间列中取出小于10的值。import numpy as npimport pandas as pddf = pd.read_csv(r'C:/Users/hanhan/PycharmProjects/pythonProject/data.csv',encoding = 'gbk')t = np.array(df['时间'])print('初始值的t=',t)t = np.array(df[df['时间']<10]['时间']).原创 2021-12-15 09:52:34 · 5156 阅读 · 0 评论 -
Python求多行数据中出现次数最多的元素及次数(按日期)
问题描述:表格中存在每一天每时段的商品热销记录,目前需要求出每一天最热销的商品是什么?以及它一天中热销的次数。表格形式:时间 商品标签 2021-12-11 9:09 5 2021/12/11 10:09 6 2021-12-12 12:10 6 完整版代码:import pandas as pdimport numpy as npimport datetime as dtfrom collections import Counter.原创 2021-12-11 09:44:19 · 2799 阅读 · 0 评论 -
Python怎么判断表格时间在上午or下午
问题描述:表格中存在一列数据:时间,格式例如:2021/12/11 8:43或者2021-12-11 8:43,要判断这个时间在上午还是在下午?完整版代码:import pandas as pdimport numpy as npimport datetime as dtfrom collections import Counterdf = pd.read_csv(r'C:\Users\hanhan\PycharmProjects\pythonProject\data.csv',e原创 2021-12-11 08:54:19 · 1934 阅读 · 0 评论 -
Excel计算开始与结束时间之间的小时/分钟/秒数
可以看到表格中的数据格式是年/月/日 00:00,通过公式计算两格之间的差值:=(F2-E2)这个是时候计算出来的差值并不是我们需求的分钟和秒数:对G列单击鼠标右键,点设置单元格格式:将格式设置为常规或者数值:这时候我们计算出来的差值变为了:如果需要更详细的分钟或者是秒钟,继续在公式后添加:小时:=(F2-E2)*24分钟:=(F2-E2)*24*60秒数:=(F2-E2)*24*60*60...原创 2021-12-06 11:22:07 · 13166 阅读 · 0 评论 -
Python已知坐标点数值拟合出n次多项式
问题描述已知坐标点的数值,如,通过程序拟合出他们之间的函数曲线。(这里我的需求是拟合出n次多项式,以后还可以扩展到指数函数、对数函数...)一、使用步骤1.引入库代码如下:import numpy as npimport pandas as pdimport matplotlib.pyplot as pltfrom sympy import *2.读入数据代码如下:#数据表格df = pd.read_csv(r'C:/Users/hanhan/Pych原创 2021-12-03 09:03:24 · 1460 阅读 · 0 评论 -
Python报错can‘t multiply sequence by non-int of type ‘float‘
import numpy as npimport pandas as pdfrom sympy import *#数据表格df = pd.read_csv(r'C:/Users/hanhui/PycharmProjects/pythonProject/alldata_new_sx.csv',encoding = 'gbk')for i in range(len(df)-1): T_xx = np.array(df['系数1'].iloc[i:i+q]) T_ss = np.ar.原创 2021-11-30 17:34:26 · 6532 阅读 · 0 评论 -
Python两个表格的数据相乘
问题描述:表1中有两列数据分别是开始时间和结束时间,表2中有两列数据分别是参数1和参数2,需求是通过result = he * Start + hst * End求出每一行数据的答案。求解步骤:分别读取两个csv文件,并从中按行取出相应的四个参数,作完运算后再存入空列表中,导入到新csv文件中。import numpy as npimport pandas as pdfrom sympy import *#数据表格df = pd.read_csv(r'C:/Users/hanh原创 2021-11-30 13:41:21 · 3567 阅读 · 0 评论 -
Python求解多个多元一次方程组(完整可运行版本代码)
问题描述:三个未知量构成一个方程式,该CSV文件中一共有N行数据有关[x, y, z]的系数,求解三个未知量[x, y, z]的值。文章目录前言 一、工具包 二、使用步骤 1.读入文件 2.编写方程 总结前言三个未知量[x, y, z]之间的关系是:a*x + b*y + c*z = p。像这样的式子,csv文件中一共有N行,我的需求是根据这些不同的系数和不同的结果p值,求出三个未知量的值。一、工具包首先要使用到的工具主要是numpy和panda.原创 2021-11-26 16:43:37 · 7836 阅读 · 4 评论 -
Python删除某列为空的连续多行
import pandas as pdimport numpy as npdf = pd.read_csv(r'C:/Users/hanhan/PycharmProjects/pythonProject/data.csv',encoding = 'gbk')loc =np.where(np.isnan(np.array(df_wendu['shijian'])))[0]df = df.drop(labels=range(loc[0],loc[-1]+1),axis=0)主要步骤为两步:(.原创 2021-11-25 11:10:29 · 2093 阅读 · 0 评论 -
Python计算多个文件一段时间内平均值并添加到文件1新增一列中
背景是:多条跑道中都有对应的时间和速度,如何计算一段时间内所有跑道的平均速度?并添加到另外一个文件的新增列中。文件1(data.csv)是月份总表,只有开始时间和结束时间。多个文件(12021-11-15.csv、22021-11-15.csv、32021-11-15.csv...)是日期表,只有一天的开始时间、结束时间、对应时刻速度。多条跑道表中的数据如下(日期格式有两种):时间 1.data 2021-11-15 14:28:28 2 2021-11-15 14:38:2原创 2021-11-15 14:55:20 · 1659 阅读 · 0 评论 -
Python对csv文件进行排序
在网上一共看到两种方法:第一种方法主要参考:pandas 数据排序.sort_index()和.sort_values() - 地球上最后一个直男 - 博客园需求是针对forall.csv中的第一列进行排序,因为没有命名,所以第一列字段默认为了’Unnamed:0‘。df_loc = df_loc.sort_values(axis=0, by='Unnamed: 0', ascending=True)print('df_loc=', df_loc)df_loc.to_csv('forall原创 2021-11-11 11:48:03 · 14531 阅读 · 0 评论 -
Python往csv文件中添加一列
import csvwith open("C:\\Users\\hanhan\\PycharmProjects\\pythonProject\\file1.csv") as csvFile: rows = csv.reader(csvFile) with open(("C:\\Users\\hanhan\\PycharmProjects\\pythonProject\\file2.csv"), 'w') as f: writer = csv.writer(f) for row .原创 2021-11-11 09:20:05 · 17787 阅读 · 0 评论 -
Python合并有相同列的两个表格
问题是有相同列的两个表格合并,但是列中的值顺序不一样,所以需要用到merge函数。import pandas as pdimport osprint(os.getcwd()) #打印出当前工作路径df5 = pd.read_csv("C:\\Users\\hanhan\\PycharmProjects\\pythonProject\\5.csv",encoding = 'gb2312',dtype='str')df6 = pd.read_csv("C:\\Users\\hanhan\\Py.原创 2021-11-05 14:26:59 · 4293 阅读 · 0 评论 -
Python根据相同列合并多个csv文件
我的需求是合并五个csv,其中七个表格的第一列都是日期(表格中未命名),根据第一列的日期将六个csv文件合并到第一个csv文件的后面(列后面),自动去除了未匹配上的数据行。例如:表1:date a 2021-11-09 1 2021-11-10 1 2021-11-11 1 表2-4:date b 2021-11-10 2 2021-11-11 2 运行程序,得到表为:date a b 2021-11-10原创 2021-11-09 15:20:21 · 2009 阅读 · 0 评论 -
Python根据相同列合并csv文件(不去除不相同数据行)
接上一篇文章,如何在合并相同列的csv文件的情况下,保留未匹配到的数据行?import pandas as pdimport osdf01 = pd.read_csv("C:\\Users\\hanhan\\PycharmProjects\\pythonProject\\01.csv",encoding = 'gb2312',dtype='str')df02 = pd.read_csv("C:\\Users\\hanhan\\PycharmProjects\\pythonProject\\0原创 2021-11-09 15:51:48 · 2793 阅读 · 0 评论 -
Python遍历文件夹存入list,并合并多文件夹中后缀名相同的文件
目前一共有五个文件夹,每个文件夹中有多个csv文件,文件夹分别为N、N1、N2、N3、N4.每个文件夹中的csv文件都是以子文件夹名称+日期命名。需求就是使用for循环将每个日期的五个csv表格合并在一起。代码主要分为两个部分:(1)for循环读取文件夹N,将文件名存入listN。①因为首先要找到一个文件,然后以这个文件的日期去找到另外四个文件。所以先通过for循环读取N文件夹中的所有文件名,并将这些文件名存入一个list中,即listN。(因为文件名全程还包含了前面的地址,所以原创 2021-11-10 13:51:31 · 2021 阅读 · 0 评论 -
Python改变日期格式(易操作)
需求是将“2021-11-10”的日期格式变为“2020/11/10”!s = '2021-11-10'a = s.split('-')print(a)a[1] = str(int(a[1]))a[2] = str(int(a[2]))b = '/'.join(a)print(b)a的结果就是把日期拆成三部分,b就是通过/把三部分连接起来,其中a[1]a[2]的操作是为了配合个数位日期的情况。例如:总得来说,还有改进的地方,慢慢学数据分析。...原创 2021-11-10 16:33:18 · 15225 阅读 · 1 评论