借無常一肘-CSDN博客

原创 python-word操作

#安装包python-docx，但是import docx#Document:文档，Paragraph:段落，run:文字块import docx---------------------------------------------------------------------------ModuleNotFoundError Traceback (most recent call last)<ipython-input-1-1d91

2020-10-12 19:20:28 150

原创 python -时间序列数据分析

#时间序列分类#1）时间戳 timestamp，特定时刻#2）固定周期（period)，某月或某年，可以在时间操作中设置间隔的周期#3）时间间隔（interval)，由起始时间戳或结束时间戳表示#字符串和datetime转换datatime -> strstr(datetime_obj)datetime.strftime()str->datetime的形式有以下几种方法datetime.strptime()需要指定时间表示的形式dateutil.parser.parse(

2020-10-12 19:19:38 489

原创 pandas- loc 5种查询数据

#csv,tsv,txt均用pd.read_csv#excel,用pd.read_excel#mysql 用pd.read_sqlimport pandas as pd import os os.chdir(r'C:\Users\Hans\Desktop\data_analysis\test_data')df = pd.read_csv('loc test.csv',encoding='gbk')df 订单号客户姓名

2020-10-12 19:18:59 813 1

原创 pandas 对缺失值的处理--数据清洗

import pandas as pd import os os.chdir(r'C:\Users\Hans\Desktop\data_analysis\test_data')df = pd.read_csv('california_cities.csv')df.head() Unnamed: 0 city latd longd elevation_m elevation_ft

2020-10-12 19:18:37 298

原创 pandas-字符串处理

import pandas as pd import os os.chdir(r'C:\Users\Hans\Desktop\data_analysis')df = pd.read_excel('pandas_multiindex.xls')df.head(2) 日期收盘开盘高低交易量涨跌幅公司 0

2020-10-12 19:17:56 317

原创 pandas的axis参数

'''axis = 0 或 index：如果是单行操作，就是指的是某一行；如果是聚合操作，指的是跨行cross rowsaxis = 1 或 columns:如果是单列操作，就指的是某一列；如果是聚合操作，指的是跨列cross columns按哪个axis，就是这个axis要动起来（类似被for遍历），其他的axis保持不动 '''import pandas as pd import numpy as npdf = pd.DataFrame(np.arange(12).reshape(3,

2020-10-12 19:17:17 317

原创 pandas的索引index的用途

import pandas as pd import os os.chdir(r'C:\Users\Hans\Desktop\data_analysis\test_data')df = pd.read_csv('03_Alcohol_Consumption.csv')df.head() country beer_servings spirit_servings wine_servings total_l

2020-10-12 19:16:31 230

原创 pandas实现DataFrame的Merge功能

#Merge ：按照key将不同的表进行合并#语法：pd.merge(left, right, how='inner', on=None, left_on=None, right_on=None, left_index=False, right_index=False, sort=True, suffixes=('_x', '_y'), copy=True, indicator=False, validate=None)right : DataFrame or n

2020-10-12 19:15:49 898

原创 pandas实现数据的合并concat--未完

#使用场景批量合并相同格式的excel，或者给DataFrame添加行，给DataFrame添加列#可以使用某种合并方式（inner/outer）；沿着某个轴向（axis=0/1）；把多个pandas对象（DataFrame/Series）合并成一个；concat相当于堆积，语法：pandas.concat(objs,axis=0,join='outer',ignore_index=False)objs:一个列表，内容可以是DataFrame或者Series,可以混合 join：合并的时候索引的方

2020-10-12 19:15:12 209

原创 pandas 批量拆分excel，批量合并excel

import os import pandas as pd import numpy as npos.chdir(r'C:\Users\Hans\Desktop\data_analysis\test_data')if not os.path.exists("test_concat"): os.mkdir('test_concat')#创建文件夹df_02 = pd.read_csv('05_cars2.csv')df_02.head()

2020-10-12 19:14:48 406

原创 pandas 数据转换函数map、apply、applymap

import pandas as pd import os os.chdir(r'C:\Users\Hans\Desktop\data_analysis')df = pd.read_excel('pandas_multiindex.xls')df.head() 日期收盘开盘高低交易量涨跌幅公司 0

2020-09-29 21:34:53 792

原创 pandas 将DataFrame中的数据转换数据形式

import pandas as pd file_path = r"C:\Users\Hans\Desktop\data_analysis\test_data\Beijing_2014.csv"df = pd.read_csv(file_path)df.head() Date Temperature(Celsius)(high) Temperature(Celsius)(avg) Temperature(Celsiu

2020-09-29 21:34:29 2043

原创 pandas怎么对groupby之后的每个分组应用apply函数

#（1）怎样对数值列按照分组的归一化#（2）怎样取每个分组的TOP N数据‘’’X的归一化：X(normalized) = (X当前值-最小值)/（X最大值-X最小值）‘’’import pandas as pd import os os.chdir(r"C:\Users\Hans\Desktop\data_analysis\test_data\movie")ratings = pd.read_csv("ratings.dat",sep = "::",engine = "python",n

2020-09-29 21:33:15 2303

原创 pandas的stack和pivot实现数据透视

import pandas as pd import numpy as npimport os %matplotlib inlineos.chdir(r"C:\Users\Hans\Desktop\data_analysis\test_data\movie")df = pd.read_csv("ratings.dat",sep = "::",engine="python",header=None,names=['UserID','MoiveID','Rating','Timestamp'])##

2020-09-29 21:32:23 370

原创 pandas 对日期进行的处理

import pandas as pd import osos.chdir(r"C:\Users\Hans\Desktop\data_analysis\test_data")df = pd.read_csv("Beijing_2014-02.csv")df.head() Date Temperature(Celsius)(avg) Dew Point(Celsius)(avg) Humidity(%)(avg)

2020-09-29 21:31:55 204

原创 pandas处理日期缺失

#两种方法实现'''1）DataFrame.reindex：调整dataframe的索引以适应新的索引2） DataFrame.resample，可以对时间序列重新采样，支持补充缺失值'''import pandas as pd import os%matplotlib inlinedf = pd.DataFrame({ "pdate":['2019-12-01','2019-12-02','2019-12-04','2019-12-05'], 'pv':[100,200,

2020-09-29 21:31:20 2707 2

原创 pandas 调整列的位置（或顺序）

import pandas as pd import os os.chdir(r'C:\Users\Hans\Desktop\data_analysis\test_data')df = pd.read_csv('ChinaBank.csv')df.head() Unnamed: 0 Date Open High Low Close Volume

2020-09-29 21:30:43 16741 2

原创 pandas 同时加条件筛选和赋值

import pandas as pd import os os.chdir(r'C:\Users\Hans\Desktop\data_analysis\test_data')df = pd.read_csv('reslut.csv',encoding='gbk')df.head() 日期收盘开盘高低百分比变化量 0 2018

2020-09-29 21:30:05 3383