个人
文章平均质量分 94
Avada__Kedavra
这个作者很懒,什么都没留下…
展开
-
TF-IDF
一、分词1. 分词的基本原理现代分词都是基于统计的分词,而统计的样本内容来自于一些标准的语料库。分词通常采用马尔科夫假设,每一个分词出现的概率仅仅和前一个分词有关: 联合分布为: 而通过我们的标准语料库,我们可以近似的计算出所有的分词之间的...原创 2019-09-19 16:55:39 · 173 阅读 · 0 评论 -
集成学习 Adaboost 提升树 GBDT Xgboost Blending Stacking
目录1. Adaboost2. 提升树(boosting tree)3.梯度提升决策树(GBDT)4. Xgboost5. Bagging 和 随机森林 RandomForest6. GBDT 和 RandomForest的区别7.xgboost,RF,LR优缺点场景BlendingStacking集成学习集成学习,是指构建并结合多个学习器来完成学习...原创 2019-09-19 16:57:01 · 572 阅读 · 0 评论 -
二分类问题评估指标
1. 准确率2. 精准率和召回率混淆矩阵confusion_matrix(y_train_5, y_train_pred)对分类器来说,一个好得多的性能评估指标是混淆矩阵。真正例(true positive)、假正例(false positive)、真反例(true negative)、假反例(false negative)四种情形。分类结果的混淆矩阵如下表所示:...原创 2019-09-19 16:56:05 · 1122 阅读 · 0 评论