![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
来杯柠檬茶
记录学习的过程
展开
-
sklearn -特征工程-预处理
1 归一化:列数据映射到0-1之间(受异常点影响) api: from sklearn.preprocessing import MinMaxScaler 案例: from sklearn.preprocessing import MinMaxScaler def minmaxscaler(): data = [[90,2,10,40], [60,4,15,...原创 2019-08-12 14:39:52 · 163 阅读 · 0 评论 -
sklearn -分类算法 -决策树
信息熵(香农提出) = 每一种类别的概率 * log 概率 ,求和 ,再乘以 -1 信息熵 衡量不确定性,信息熵越小,不确定性也越小。信息熵越大,不确定性越大。 信息增益 : 表示得知特征A的信息之后,信息熵减少的程度。 = 初始信息熵 – A条件信息熵 初始信息熵: 只看目标值 。是(9/15)和否(6/15) 初始信息熵 = -1 (9/15log 9/15+6/15* log...原创 2019-08-12 16:47:25 · 202 阅读 · 0 评论 -
sklearn - 分类算法 -随机森林
随机森林 : 多颗 决策树的集成学习方法。 集成学习方法: 建立多个模型来解决一个问题。模型之间独立学习和独立预测。 最后的预测结果按照大多数合并为一个最终预测结果,这个最终的预测结果好于单个模型的预测。 随机森林=随机,多次的创建决策树 创建决策树的过程如下: 有N个样本,M个特征 每次从样本集合里随机选1个样本,重复N次。 抽样有放回。(会出现重复抽取到样本) 随机在M个特征里面,...原创 2019-08-12 17:16:11 · 975 阅读 · 0 评论 -
sklearn - 网格搜索的使用
GridSearchCv 来生成超参数的组合,自动选择效果最好的 参数。 api : from sklearn.model_selection import GridSearchCV 例子: rfc = RandomForestClassifier() para_dict ={'n_estimators':[88,99,100,111,122,120],'max_depth':[8,9,10,...原创 2019-08-12 17:20:16 · 2563 阅读 · 2 评论