机器学习建模
机器学习看上去和听上去感觉高大上,但一层层拨开它的面纱就会发现从理解到应用没有那么的困难,下面简单介绍一下我的个人经验。
机器学习分为监督学习和无监督学习,无监督学习里面包含聚类,降维等,监督学习包括分类和回归,个人觉得机器学习里面最重要的库是sklearn
具体有关的参数以及超参都可以查看https://scikit-learn.org/stable/的api。
首先介绍一下我的学习路线,我当时学习机器学习的时候是看唐宇迪的机器学习视频,感觉他讲的非常不错,包括后期学深度学习也看了吴恩达的视频等等。
第一:定计划,列下目前的机器学习方法(线性回归,岭回归,逻辑回归,贝叶斯,决策树,随机森林,lightgbm,xgboost,svm,k_means,pca,aporia关联算法等等)
然后开始计划一周学习一个算法(从理论到实践::其实用不到一周,而且不用全部都学,有的到用的时候再学)
因为机器学习中分类算法用的较多,下面举例分类算法的机器学习处理过程。
数据分析以及预处理
# 1.数据分析
# 分类的0,1分布(一般指二分类),数据的整体情况等
# 特征的类型,特征的数值分布,特征对类别的分布等
# 特征的空值率,特征的熵,特征的降维,特征的共线性,特征的筛选等
import matplotlib.pyplot as plt
import pandas as pd
df.label.value_counts()
df.info()
#画图
%matplotlib inline
%config InlineBackend.figure_format = 'png'
ax = df.query('Survived == 0')['Age'].plot(kind = 'density',
figsize = (12,8),fontsize=15)
df.query('Survived == 1')['Age'].plot(kind = 'density',
figsize = (12,8),fontsize=15)
ax.legend(['Survived==0','Survived==1'],fontsize = 12)
ax.set_ylabel('Density',fontsize