【月度总结】数据库&Python&Excel_202205_excel 和 python,数据库和python-CSDN博客

本文链接：https://blog.csdn.net/bingbangx/article/details/125145656

不断积累，不断沉淀，奥力给！！！！！！！

Excel

1、数据条

excel中一列数据的值越大，颜色条越长

可在开始 ----->条件格式 ------>数据条进行设置

2、函数

offset()函数语法

功能：以指定的引用为参照系，通过给定偏移量得到新的引用

语法结构：offset(起始区域，行偏移量，列偏移量，[行扩展量]，[列扩展量])

ferror()函数用法

语法结构： iferror( 条件成立时显示的内容，不成立要显示的内容)

match()函数的用法

功能：返回符合特定值特定顺序的项在数组中的相对位置。

语法结构：match(查找值，查找区域，[匹配方式])

注意：匹配方式有三种，分别为-1，0，1。-1代表降序排列，0代表顺序排列，1代表升序排列

数据库

1、向表中插入数据

2、向表中插入数据，另外一列赋值为空

3、向含有自增列的表中插入数据需要注意：

SQLserver数据库，当表中含有自增列时，不需要设置自增列的占位符
MySQL数据库，表第一列是自增ID 用 DEFAULT 或者 NULL 加上就好了（null,%s,%s,%s）

4、按照旺旺名进行分组

dense_rank() over(partition by a.member_id order by a.member_id, convert(varchar(100),a.fkrq,120) desc ) 顺序 ####注desc是降序排列，默认是升序

Python

1、os.walk(path)

学会使用os.walk(path) → 返回路径中的信息及文件，结果为一个生成器

转列表方法 list()

将路径进行拼接 os.path(i,j) 或者i + j

2、定位缺失值位置

data[data.isnull().values == True]

3、将数据追加在后面的时候，

list 列表的话，先定义一个空的列表，data_file =[]直接data_file.append(data)——》得到data_file[0]……
dataframe的话，先定义一个空的DataFrame，data_file =pd.DataFrame() 要使用赋值的方式data_file = data_file.append(data) ——>得到一个DataFrame对象

4、计算销量累计占比

data['销量'].cumsum() /data['销量'].sum()

5、python pandas 索引检索

loc函数：通过行索引 “Index” 中的具体值来取行数据（如取"Index"为"A"的行）

iloc函数：通过行号来取行数据（如取第二行的数据）

注：loc是location的意思，iloc中的i是integer的意思，仅接受整数作为参数。

6、np.newaxis

np.newaxis的作用就是在这一位置增加一个维度，这一位置指的是np.newaxis所在的位置

x1 = np.array([1, 2, 3, 4, 5])

x1_new = x1[:, np.newaxis]

# now, the shape of x1_new is (5, 1)

# array([[1],

# [2],

# [3],

# [4],

# [5]])

x1_new = x1[np.newaxis,:]

# now, the shape of x1_new is (1, 5)

# array([[1, 2, 3, 4, 5]])

.reshape(-1, 1) #表示将数据弄成二维

7、查看数组的维度

np.shape(data)

8、np.linespace()函数的用法

np.linspace(start, stop, num=50, endpoint=True, retstep=False, dtype=None, axis=0)

在间隔start和stop之间返回num个均匀间隔的数据。

9、使用Python sklearn线性回归曲线的系数、截距查看

model.fit(X,y)

训练出一个模型后，sklearn分了两部分存模型系数

print('线性回归曲线的系数为：',model.coef_)

print('线性回归曲线截距为：',model.intercept_)

10、空值

np.nan

11、Seaborn

Seaborn是基于matplotlib 的Python可视化库。它提供了一个高级界面来绘制有吸引力的统计图形。Sea born是在matplotlib的基础上进行了更高级的API封装，从而使得作图更加容易，不需要经过大量的调整就能呢使得图变得更加精致。

kdeplot(核密度估计图)

sns.kdeplot()参数

一元

cut：参数表示绘制的时候，切除带宽往数轴极限数值的多少(默认为3)
cumulative ：是否绘制累积分布
shade：若为True，则在kde曲线下面的区域中进行阴影处理
color控制曲线及阴影的颜色
vertical：表示以X轴进行绘制还是以Y轴进行绘制

二元

cbar：参数若为True，则会添加一个颜色棒(颜色帮在二元kde图像中才有)

distplot()

distplot()集合了matplotlib的hist()与核函数估计kdeplot的功能，增加了rugplot分布观测条显示与利用scipy库fit拟合参数分布的用途。

seaborn.distplot(a,bins=None,hist=True,kde=True, rug=False, fit=None, hist_kws=None, kde_kws=None, rug_kws=None, fit_kws=None, color=None, vertical=False, norm_hist=False, axlabel=None, label=None, ax=None)

sns.distplot()参数

rug：控制是否生成观测数值的小细条
fit：控制拟合的参数分布图形，能够直观地评估它与观察数据的对应关系(黑色线条为确定的分布) (fit=norm) #拟合标准正态分布
kde_kws指的是对于密度曲线的设置
rug_kws指的是对于数据频率分布的设置
hist_kws, kde_kws, rug_kws, fit_kws参数接收字典类型，可以自行定义更多高级的样式例如： rug_kws = {'color':'y','lw':2,'alpha':0.5,'height':0.1}；kde_kws={"color": "y", "lw": 1.5, 'linestyle':'--'}
norm_hist：若为True, 则直方图高度显示密度而非计数(含有kde图像中默认为True