不断积累,不断沉淀,奥力给!!!!!!!
Excel
1、数据条
excel中一列数据的值越大,颜色条越长
可在开始 ----->条件格式 ------>数据条进行设置
2、函数
-
offset()函数语法
功能:以指定的引用为参照系,通过给定偏移量得到新的引用
语法结构:offset(起始区域,行偏移量,列偏移量,[行扩展量],[列扩展量])
-
ferror()函数用法
语法结构: iferror( 条件成立时显示的内容,不成立要显示的内容)
-
match()函数的用法
功能:返回符合特定值特定顺序的项在数组中的相对位置。
语法结构:match(查找值,查找区域,[匹配方式])
注意:匹配方式有三种,分别为-1,0,1。-1代表降序排列,0代表顺序排列,1代表升序排列
数据库
1、向表中插入数据
2、向表中插入数据,另外一列赋值为空
3、 向含有自增列的表中插入数据需要注意:
-
SQLserver数据库,当表中含有自增列时,不需要设置自增列的占位符
-
MySQL数据库, 表第一列是自增ID 用 DEFAULT 或者 NULL 加上就好了 (null,%s,%s,%s)
4、按照旺旺名进行分组
dense_rank() over(partition by a.member_id order by a.member_id, convert(varchar(100),a.fkrq,120) desc ) 顺序 ####注desc是降序排列,默认是升序
Python
1、os.walk(path)
学会使用os.walk(path) → 返回路径中的信息及文件,结果为一个生成器
转列表方法 list()
将路径进行拼接 os.path(i,j) 或者i + j
2、定位缺失值位置
data[data.isnull().values == True]
3、将数据追加在后面的时候,
-
list 列表的话,先定义一个空的列表,data_file =[]直接data_file.append(data)——》得到data_file[0]……
-
dataframe的话,先定义一个空的DataFrame,data_file =pd.DataFrame() 要使用赋值的方式data_file = data_file.append(data) ——>得到一个DataFrame对象
4、计算销量累计占比
data['销量'].cumsum() /data['销量'].sum()
5、python pandas 索引检索
loc函数:通过行索引 “Index” 中的具体值来取行数据(如取"Index"为"A"的行)
iloc函数:通过行号来取行数据(如取第二行的数据)
注:loc是location的意思,iloc中的i是integer的意思,仅接受整数作为参数。
6、np.newaxis
np.newaxis的作用就是在这一位置增加一个维度,这一位置指的是np.newaxis所在的位置
-
x1 = np.array([1, 2, 3, 4, 5])
x1_new = x1[:, np.newaxis]
# now, the shape of x1_new is (5, 1)
# array([[1],
# [2],
# [3],
# [4],
# [5]])
x1_new = x1[np.newaxis,:]
# now, the shape of x1_new is (1, 5)
# array([[1, 2, 3, 4, 5]])
.reshape(-1, 1) #表示将数据弄成二维
7、查看数组的维度
np.shape(data)
8、np.linespace()函数的用法
np.linspace(start, stop, num=50, endpoint=True, retstep=False, dtype=None, axis=0)
在间隔start和stop之间返回num个均匀间隔的数据。
9、使用Python sklearn线性回归曲线的系数、截距查看
model.fit(X,y)
训练出一个模型后,sklearn分了两部分存模型系数
print('线性回归曲线的系数为:',model.coef_)
print('线性回归曲线截距为:',model.intercept_)
10、空值
np.nan
11、Seaborn
Seaborn是基于matplotlib 的Python可视化库。它提供了一个高级界面来绘制有吸引力的统计图形。Sea born是在matplotlib的基础上进行了更高级的API封装,从而使得作图更加容易,不需要经过大量的调整就能呢使得图变得更加精致。
kdeplot(核密度估计图)
sns.kdeplot()参数
一元
-
cut:参数表示绘制的时候,切除带宽往数轴极限数值的多少(默认为3)
-
cumulative :是否绘制累积分布
-
shade:若为True,则在kde曲线下面的区域中进行阴影处理
-
color控制曲线及阴影的颜色
-
vertical:表示以X轴进行绘制还是以Y轴进行绘制
二元
-
cbar:参数若为True,则会添加一个颜色棒(颜色帮在二元kde图像中才有)
distplot()
distplot()集合了matplotlib的hist()与核函数估计kdeplot的功能,增加了rugplot分布观测条显示与利用scipy库fit拟合参数分布的用途。
seaborn.distplot(a,bins=None,hist=True,kde=True, rug=False, fit=None, hist_kws=None, kde_kws=None, rug_kws=None, fit_kws=None, color=None, vertical=False, norm_hist=False, axlabel=None, label=None, ax=None)
sns.distplot()参数
-
rug:控制是否生成观测数值的小细条
-
fit:控制拟合的参数分布图形,能够直观地评估它与观察数据的对应关系(黑色线条为确定的分布) (fit=norm) #拟合标准正态分布
-
kde_kws指的是对于密度曲线的设置
-
rug_kws指的是对于数据频率分布的设置
-
hist_kws, kde_kws, rug_kws, fit_kws参数接收字典类型,可以自行定义更多高级的样式 例如: rug_kws = {'color':'y','lw':2,'alpha':0.5,'height':0.1};kde_kws={"color": "y", "lw": 1.5, 'linestyle':'--'}
-
norm_hist:若为True, 则直方图高度显示密度而非计数(含有kde图像中默认为True
12、matplotlib画图
开始理解matplotlib画图的方式,学会使用Python 去画图分析数据
-
箱线图的使用
-
异常值的判定
-
异常数据的呈现
-
图片的保存方法 plt.savefig('111.png')
-
%matplotlib inline #IPython notebook中的魔法方法,这样每次运行后可以直接得到图像,不再需要使用plt.show()