#天池链接 https://tianchi.aliyun.com/notebook-ai/detail?spm=5176.197000 python运行快捷键是shift+F10。 A是向上插入行,B是向下插入行,双击D删除当前行,Z返回。 相关快捷键: 最重要的快捷键 1. ctrl+shift+A:万能命令行 2. shift两次:查看资源文件 光标操作 1. ctrl+alt+enter:向上插入 2. shift+enter:向下插入 3. end:光标
print ("hello Marilyn")
循环语句
a=4
b=6
if a>b:
c=1
elif a<b:
c=2
else:
c=0
customer=['Mike','Jason','Maggie','Amy','Kiki','Becky','Lily']
for user in customer:
print(user)
if user=='Kiki':
break
#for循环和if语句的条件句后都要加":",下一句则要空一格再加action
for user in customer:
if user=='Amy':
continue
print(user)
records=[15,18,39,41]
for x in records:
x += 3
print(x)
引入包
import numpy as np
x=np.arange(10)
y=x**2
from matplotlib import pyplot as plt
plt.plot(x,y)
plt.show()
DataFrame创建和处理方法
#DataFrame包含列/行标签和值
import pandas as pd
df1=pd.DataFrame({'name':['zhang','li','zhao','sun'],'price':[1,2,3,4],'amount':[5,6,7,8]})
df1['total_price']=df1['amount']*df1['price']
df1
#通过直接赋值/增加计算式来增加列名
df2=pd.DataFrame({'name':['zhang'],'price':[1],'amount':[5]})
df2
df1.append(df2)
df1[(df1['price']>2) & (df1['total_price']>14)]
#复合条件筛选:每个条件通过()隔开,并在()中输入筛选条件
df1.columns #查看列标签
df1['price'].dtype #price这一列的数据类型,每一列都是一个'series'
aa=df1['price']
aa
#选择其中的某一列,或者用df1.price
df1['price'].value_counts() #对列的值进行计数统计,output第二列表示该价格出现的次数
df1.rename(columns={'name':'first_name'},inplace=True) #修改列标签,注意括号类似dictionary数组排列,inplace表示在原数组上替换。
df1.index=['a','b','c','d']
df1.index #修改行标签
df1.sort_values(by='price',ascending=False) #修改排列顺序,ascending=False为降序,默认True为升序
df1.sort_values(by=['price','amount'],ascending=[False,True])
df1['price']=df1['price'].astype(str)
df1.dtypes
df1.drop(['a'],axis=0) #删除某一行 df1.drop([start,end],axis=0,inplace=True/False) axis=0是删除行,1是删除列,默认不在原数据做修改即False
df1.drop(['amount'],axis=1)
del df1['total_price'] #删除某一行 df1.drop(['列名'],axis=1,inplace=True/False) 或用del df['列名']直接在原数据上删除
导入及保存数据
import pandas as pd
DF=pd.read_excel(io=r'路径及文件名.xlsx',sheetname=0,header=0,skiprows=None,index_col=None,names=None)
sheetname默认为0即第一个工作簿。header默认为0即标题行,如果没有标题行则设置成None。
skiprows表示从第一行开始所设置的行数将不会进行读取。skip_footer表示倒数第一行开始所设置的行数将不会进行读取。
index_col用作行索引的列编号或列名。names用于结果的列名列表,结合header=None,再通过names设置标题行。
DF=pd.read_csv(filepath_or_buffer,engine=None,sep=',',header=0,names=None,dtype=None,nrows=None,skip_footer=0,encoding=None)
engine指使用的分析引擎,存在中文时选择Python。nrows需要读取的行数。dtype指每一列的数据类型。encoding即指定字符集烈性,通常为'utf-8'。
DF.to_excel(r'路径及文件名',sheet_name='sheet1',na_rap='',columns=None,header=True,index=True)
na_rap表示缺失数据的表示方式,index是否保留index默认为True。
DF.to_csv(r'路径及文件名',sep=',',na_rap='',columns=None,header=True,index=True)