![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
小项目
文章平均质量分 92
裕跃
https://github.com/peinbill
展开
-
文本分类(初阶)
前言之前写了十几篇blog,但更多都是基础知识的回顾,基础知识尽管再好,也是基础知识,它只能帮助你在工作中更快上手,或者说让你在程序员的道路上走得更远——地基打得越好,楼层才能越高。毕竟最近也开始要考虑找工作的事情,所以也要把专业知识给补上。作为一个日常都是处理文本的少年,文本分类是第一道、甚至可以不夸张地说是最重要一道的坎:尽管现在各种NLP方法都热火朝天的样子,但本质上都存在着落地难的问题,NLG看似高端大气上档次,但是除了机器翻译外,其他都很难做到商用级别,而机器翻译也不是单纯地使用Bert啊,E原创 2021-01-13 00:29:22 · 412 阅读 · 0 评论 -
Kaggle实战——Gender Recognition by Voice声音的性别区分(结构化数据)(一)
这是以前的一次小组期末作业(当然编程部分都是我独立完成),写在这里也当做记录一下,顺便复习一下python和常用的机器学习算法吧。在进行数据分析时候第一件事情就是......数据集的查找........无论对于新手还是老手来说,Kaggle都是一个很好的数据平台,新手直接上手以前的玩具数据,至于老手可以直接对新数据进行比赛.......可以的话还可以混点奖金什么的(虽然哥从没得过奖)。这次的数据属...原创 2018-05-14 15:59:39 · 6144 阅读 · 0 评论 -
Kaggle实战——Gender Recognition by Voice声音的性别区分(结构化数据)(二)
之前讲到用验证集和测试集对模型进行评定,但除了单纯使用准确率(accuracy)外,在二分类中,还可以使用查全率(precision)和召回率(recall)进行。当然,正如一句俗话:一张图剩于千个字。除了上面干巴巴的数字之外,我们更习惯于用图进行说话,在二分类中,我们常用的是ROC曲线和PR曲线,在本文中仅讲述ROC曲线。ROC曲线的全称为“受试者工作特征”,在介绍ROC曲线之前首先要引入混淆矩...原创 2018-05-14 21:40:27 · 2641 阅读 · 4 评论