【月度总结】数据库&Python&Excel_202205

不断积累,不断沉淀,奥力给!!!!!!!

Excel

1、数据条

excel中一列数据的值越大,颜色条越长

     可在开始 ----->条件格式 ------>数据条进行设置

2、函数

  • offset()函数语法

    功能:以指定的引用为参照系,通过给定偏移量得到新的引用    

    语法结构:offset(起始区域,行偏移量,列偏移量,[行扩展量],[列扩展量])

  • ferror()函数用法

   语法结构: iferror( 条件成立时显示的内容,不成立要显示的内容)

  • match()函数的用法

    功能:返回符合特定值特定顺序的项在数组中的相对位置。    

    语法结构:match(查找值,查找区域,[匹配方式])

    注意:匹配方式有三种,分别为-1,0,1。-1代表降序排列,0代表顺序排列,1代表升序排列

数据库

1、向表中插入数据

2、向表中插入数据,另外一列赋值为空

3、 向含有自增列的表中插入数据需要注意:

  •     SQLserver数据库,当表中含有自增列时,不需要设置自增列的占位符

  •     MySQL数据库, 表第一列是自增ID 用 DEFAULT 或者 NULL 加上就好了  (null,%s,%s,%s)

4、按照旺旺名进行分组

dense_rank() over(partition by a.member_id order by a.member_id, convert(varchar(100),a.fkrq,120) desc ) 顺序   ####注desc是降序排列,默认是升序

Python

1、os.walk(path)

学会使用os.walk(path) → 返回路径中的信息及文件,结果为一个生成器

转列表方法   list()

将路径进行拼接   os.path(i,j)    或者i + j

2、定位缺失值位置

data[data.isnull().values == True]

3、将数据追加在后面的时候,

  • list 列表的话,先定义一个空的列表,data_file =[]直接data_file.append(data)——》得到data_file[0]……

  • dataframe的话,先定义一个空的DataFrame,data_file =pd.DataFrame() 要使用赋值的方式data_file = data_file.append(data)  ——>得到一个DataFrame对象

4、计算销量累计占比

    data['销量'].cumsum()    /data['销量'].sum()

5、python pandas 索引检索

loc函数:通过行索引 “Index” 中的具体值来取行数据(如取"Index"为"A"的行)

iloc函数:通过行号来取行数据(如取第二行的数据)

注:loc是location的意思,iloc中的i是integer的意思,仅接受整数作为参数。

6、np.newaxis

np.newaxis的作用就是在这一位置增加一个维度,这一位置指的是np.newaxis所在的位置

  •     x1 = np.array([1, 2, 3, 4, 5])

        x1_new = x1[:, np.newaxis]

        # now, the shape of x1_new is (5, 1)

        # array([[1],

        #        [2],

        #        [3],

        #        [4],

        #        [5]])

        x1_new = x1[np.newaxis,:]

        # now, the shape of x1_new is (1, 5)

        # array([[1, 2, 3, 4, 5]])

   .reshape(-1, 1)  #表示将数据弄成二维

7、查看数组的维度

np.shape(data)

8、np.linespace()函数的用法

np.linspace(start, stop, num=50, endpoint=True, retstep=False, dtype=None, axis=0)

在间隔start和stop之间返回num个均匀间隔的数据。

9、使用Python sklearn线性回归曲线的系数、截距查看

    model.fit(X,y)

    训练出一个模型后,sklearn分了两部分存模型系数

    print('线性回归曲线的系数为:',model.coef_)

    print('线性回归曲线截距为:',model.intercept_)

10、空值

        np.nan

11、Seaborn

   Seaborn是基于matplotlib 的Python可视化库。它提供了一个高级界面来绘制有吸引力的统计图形。Sea born是在matplotlib的基础上进行了更高级的API封装,从而使得作图更加容易,不需要经过大量的调整就能呢使得图变得更加精致。

    kdeplot(核密度估计图) 

    sns.kdeplot()参数

    一元

  • cut:参数表示绘制的时候,切除带宽往数轴极限数值的多少(默认为3)

  • cumulative :是否绘制累积分布 

  • shade:若为True,则在kde曲线下面的区域中进行阴影处理

  • color控制曲线及阴影的颜色

  • vertical:表示以X轴进行绘制还是以Y轴进行绘制

    二元

  • cbar:参数若为True,则会添加一个颜色棒(颜色帮在二元kde图像中才有)

distplot()

    distplot()集合了matplotlib的hist()与核函数估计kdeplot的功能,增加了rugplot分布观测条显示与利用scipy库fit拟合参数分布的用途。

seaborn.distplot(a,bins=None,hist=True,kde=True, rug=False, fit=None, hist_kws=None, kde_kws=None, rug_kws=None, fit_kws=None, color=None, vertical=False, norm_hist=False, axlabel=None, label=None, ax=None)

sns.distplot()参数

  • rug:控制是否生成观测数值的小细条

  • fit:控制拟合的参数分布图形,能够直观地评估它与观察数据的对应关系(黑色线条为确定的分布)       (fit=norm) #拟合标准正态分布

  • kde_kws指的是对于密度曲线的设置

  • rug_kws指的是对于数据频率分布的设置

  • hist_kws, kde_kws, rug_kws, fit_kws参数接收字典类型,可以自行定义更多高级的样式      例如: rug_kws = {'color':'y','lw':2,'alpha':0.5,'height':0.1};kde_kws={"color": "y", "lw": 1.5, 'linestyle':'--'}

  • norm_hist:若为True, 则直方图高度显示密度而非计数(含有kde图像中默认为True

12、matplotlib画图

开始理解matplotlib画图的方式,学会使用Python 去画图分析数据

  • 箱线图的使用

  • 异常值的判定

  • 异常数据的呈现

  • 图片的保存方法   plt.savefig('111.png')

  • %matplotlib inline  #IPython notebook中的魔法方法,这样每次运行后可以直接得到图像,不再需要使用plt.show()

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值