自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3)
  • 资源 (1)
  • 收藏
  • 关注

原创 机器学习中对变量的处理

将类别用一个向量表示,向量的长度等于类别总数N,向量中N-1个位置都为0,剩下一个为1,而1所在位置与向量表示的类别相对应。在实际操作中还可以直接调用scikit-learn中的函数直接进行编码操作,不过调用函数之前需要先对数据中的NAN值进行处理,。这些数字编码往往是由矩阵的形式存储的,取值为0或1,为了节省空间,可以采用键值对的形式记录1的位置和值。由于对计算机来说,它只能理解总共有多少类别,类别之间不同名称并没有什么区别,因此我们往往需要将类别转换成数字再后续操作。这种编码操作的常见操作有如下。

2023-08-17 20:20:55 96

原创 机器学习中常用的metrics

假设AUC为0.8,从数据集中随机选择一个正样本和一个负样本,那么正样本将以0.8的概率排名高于负样本。如果一个样本的得分高于另一个样本,那么可以说这个样本在模型中的排名高于另一个样本。在这个例子中,如果有正样本以0.8的概率排名高于负样本,这意味着正样本在模型中被分配了更高的概率得分,即模型认为它更可能属于正类。也就是说,如果模型对某个样本的预测非常确定,但预测结果却非常错误,那么对数损失会给予较大的惩罚。加权精确度:与宏平均精确度相同,但在这种情况下,它是根据每个类别中的项目数量进行加权平均的。

2023-08-02 13:18:59 565

原创 机器学习中的cross-validation

在机器学习中,将数据集分为两部分,一部分用来训练,一部分用来测试。为了模型能学习到更完备又不带“偏见”的特征,于是重复数据划分的过程,保证所有的数据都会被丢入到模型中进行训练。在这个过程中,上一次用于测试的数据可能下次就会用于训练,上一次用于训练的数据,下次可能会用于测试,于是称其为交叉验证。

2023-07-30 20:26:59 110

scrapy 爬虫

基于scrapy框架的爬虫代码,示例包括一些网站二级爬虫。

2018-12-23

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除