【python数据分析】学习记录1

Python数据分析课程:
5课:机器学习怎么学?哪里不会的数学再倒回去学


6课:算法推导与案例
算法怎么学:看书/博客/视频,看不懂可以先跳过,坚持写博客,动手做笔记
机器学习怎么做:
1.Github(找资源),kaggle(数据挖掘竞赛网站,找数据,讨论)[尝试注册然而失败]
2.案例的积累,模仿别人的做
3.学会套路!套路!模仿!模仿!


14课:pandas数据怎么读入
读取文件: pandas.read_csv("文件名.csv")
显示类型:type( ) 显示类型
               .dtypes 显示数据类型
小工具:help()
           shift+回车,换新行
取前几行后几行:
                .head()前五条数据
                .tail()后五行数据
取所有列名:
                .columms
看规模:
                .shape


15课:pandas索引与计算
读取第n行的数据: .loc[n]
读取第3到第6行的数据:.loc[3:6]
取列数据: frame['列名']
                frame[['列名1','列名2']]
变成列表形式: tolist
后缀: .endswith(' ')
新加一列只要frame['列名']
最大值.max()


16课:数据预处理实例(泰坦尼克号)
从小到大排序: .sort_values('列名')
从大到小: 加上ascending =  False
判断是否有缺失值: pd.isnull(age)
                             pd.isnull(age).any()
显示所有值为NaN的索引:
                 age_is_null    = pd.isnull(age)        
                             print(age[age_is_null])
缺失值有多少: age_null_true = age[age_is_null]
                      print(len(age_null_true))


17课:常用预处理方法
计算平均值时不带上缺失值:.mean()
数据透视表:index:以谁为基准
                    value:和谁比
                    aggfunc:什么关系,不写就按照均值计算
                    例子是以船舱等级为基准,比较和平均获救人数的关系
丢掉缺失值:.dropna()
                    .dropna(axis=1)把所有有nan值的列删掉
                    .dropna(axis=0,subset=['年龄','性别'])把年龄和性别有nan值的行删掉 定位:行号列号:.loc[行号,'列名']                  


18课:pandas自定义函数
重新排index值: reset_index(drop=True)#drop=True表示原来的不要了直接形成新的
自定义函数:.apply()
!疑问:1.为什么有一个例题apply后的括号里有axis =1,什么时候要写这个?
              2.在求平均值的时候出现异常,明明应该是20左右的数,最后出现了1000多


19课:Series结构:Dataframe的每一列都是Series结构,Series里的每个value(操作:.values)是ndarray结构。
          .set_index('列名'):以某列来作为index进行排序
          (第19课说的啥啊听不明白)


25课:Seaborn 的安装
import seaborn as sns
import numpy as np
import matplotlib as mpl
import matplotlib.pylab as plt
%matplotlib inline


26课:整体风格布局设置
    写完代码直接显示图在notebook上: %matplotlib inline
    np.linspace(0,14,100):在0-14上找100个点(注意linspace没有e)
    sns.set() 用seaborn的默认参数
    五种主题风格:whitegrid,darkgrid,dark,white,ticks(xy轴上加线段),用法:sns.set_style('ticks')
    去掉右边和上面的框线:sns.despine()


27课:风格细节设置
    图离轴线的距离offset:sns.despine(offset=100)
    去点某条轴,例如左轴:sns.despine(left= True)
    指定风格with域:with里是一种风格,外面是另一种,特别适合子图对比用
    with sns.axes_style('darkgrid'):
            plt.subplot(211)
            sinplot()
    plt.subplot(212)
    sinplot()
    
    大小:sns.set_context('notebook'),paper<talk<poster<notebook
    字体大小:font_scale=
        sns.set_context('poster',font_scale=0.5)
    线的粗度:rc={'lines.linewidth':2.5}


28课:调色板
    离散型/连续型颜色
    默认有6个颜色(我的有10个),当颜色需求多于默认时,最常用的方法是使用hls的颜色空间:palette=sns.palplot(sns.color_palette('hls',12))
    调亮度和饱和度:l和s:sns.palplot(sns.hls_palette(8,l=0.7,s = 0.9)
    调取颜色对(深浅)Paired:sns.palplot(sns.color_palette('Paired',8))


29课:调色板颜色设置
    xkcd 包含了一套针对随机RGB色的命名
    颜色由浅到深:sns.palplot(sns.color_palette('Blues')),由深到浅加_r


76课:
机器学习:sklearn
cross_validation 交叉验证
线性回归拟合
逻辑回归结果也差不多

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值