数据分析
shaobo Huang
化繁为简,高效极致
展开
-
python实现移除某文件夹下所有文件
def del_file(path): ls = os.listdir(path) for i in ls: c_path = os.path.join(path, i) if os.path.isdir(c_path): self.__del_file(c_path) else: os.remove(c_path)原创 2021-04-13 16:20:19 · 214 阅读 · 0 评论 -
python实现文件压缩
def zip_file(path): import zipfile z = zipfile.ZipFile('youfile.zip', 'w', zipfile.ZIP_DEFLATED) for dirpath, dirnames, filenames in os.walk(path): for filename in filenames: z.write(os.path.join(dirp...原创 2021-04-13 16:19:08 · 296 阅读 · 0 评论 -
python 合并同一文件夹下部分名字相同的文件
# -*- coding: UTF-8 -*-#!usr/bin/python3# Author: James_Bobo# Completion Date: 2021-04-12from tqdm import tqdmimport osimport pandas as pdimport numpy as npimport warningswarnings.filterwarnings("ignore")import timepath = 'D:/first/second/third原创 2021-04-12 11:38:28 · 954 阅读 · 0 评论 -
曲线拟合
scipy.optimize.curve_fit对函数进行拟合官方文档常用的数学函数高阶拟合函数:四参数逻辑回归函数import numpy as npfrom matplotlib import pyplot as pltplt.rcParams['font.sans-serif'] = ['KaiTi'] # 用来正常显示中文标签plt.rcParams['axes.unicode_minus'] = False # 用来正常显示负号t=[x for x in range(1,1原创 2021-02-24 13:55:37 · 492 阅读 · 0 评论 -
pandas为dataframe批量增加表头数据
import pandas as pdimport osfrom tqdm import tqdmpath = 'you_path' path_list = os.listdir(path)print(path_list)for filename in tqdm(path_list): df = pd.read_csv(os.path.join(path,filename)) df.columns = ['header1','header2','header3','header4原创 2020-12-17 10:37:07 · 6655 阅读 · 0 评论 -
时间数值缺失产生的字符串NaT处理
处理时间缺失值填充NaT报错,dropna()函数也有无可奈何的时候先看下dropna()函数dropna()函数Pandas DataFrame dropna() function is used to remove rows and columns with Null/NaN values. By default, this function returns a new DataFrame and the source DataFrame remains unchanged.Pandas Da原创 2020-12-17 10:32:15 · 1499 阅读 · 2 评论 -
.xls和.xlsx 有什么区别?
1、文件格式不同。.xls 是一个特有的二进du制格式,其核心结构是复合文档类型的结构.xlsx 的核心结构是 XML 类型的结构,采用的是基于 XML 的压缩方式,使其占用的空间更小。xlsx 中最后一个 x的意义就在于此2、版本不同。.xls是excel2003及以前版本生成的文件格式.xlsx是excel2007及以后版本生成的文件格式3、兼容性不同。.xlsx格式是向下兼容的,可兼容xls格式...转载 2020-11-17 19:02:40 · 12154 阅读 · 0 评论 -
误差分析(python)
import mathdef get_average(records): """ 平均值 """ return sum(records) / len(records)def get_variance(records): """ 方差 反映一个数据集的离散程度 """ average = get_average(records) return sum([(x - average) ** 2 for x in records])原创 2020-11-04 14:37:40 · 7617 阅读 · 0 评论 -
matplotlib绘图(折线图,直方图,柱状图,饼图,散点图,三维,动图)
折线图#折线图,曲线图import numpy as npimport matplotlib.pyplot as pltx = np.linspace(-10, 10, 1000)# y = np.sin(x)#y = 2 * x * x * x + 3* x * x + 2*x +5y = np.sin(2*x)+2*np.cos(1/x)plt.figure()plt.pl...原创 2019-12-26 18:55:05 · 2884 阅读 · 0 评论 -
Pandas.DataFrame转置
import pandas as pddf = pd.DataFrame([['Jim', 7, 77], ['Tom', 8, 88]], columns=['Name', 'DATA1', 'DATA2'])df_T = pd.DataFrame(df.values.T, index=df.columns, columns=df.index)原始:转置:原创 2020-11-04 10:33:03 · 1178 阅读 · 0 评论 -
Python 取dataframe某一列为特定值
df_sub=df[df.column==2]column是需要限定条件列的名称,“==”后可限制任意值。df_sub即为所有满足column=1的数据组成的新DataFrame。原创 2020-10-26 17:41:47 · 10243 阅读 · 2 评论