- 博客(2)
- 资源 (4)
- 问答 (1)
- 收藏
- 关注
原创 如何解决分类中的样本倾斜问题
在Recsys中看到一个关于如何解决数据集偏斜的问题,遂想到以前也考虑过这个问题,所以就总结了一些以前看的资料。问题定义先来说说样本的偏斜问题,也叫数据集偏斜(unbalanced),它指的是参与分类的两个类别(也可以指多个类别)样本数量差异很大。比如说正类有10,000个样本,而负类只给了100个,这会引起的问题显而易见,可以看看下面的图:方形的点是负类。H,H1
2012-05-19 19:48:14 17539 1
原创 Python内存池管理与缓冲池设计
Python是一门开发效率很高的语言,而且其既下里巴人,又阳春白雪。也就是说这门语言只要稍加学习就可以上手开发,而深入探究也会发现Python有很多高深的东西。最近读了《Python源码剖析》,收获良多,今天就把Python的内存管理整理一番。本文的组织如下:第一部分:整理Python的内存管理机制,主要包括内存池以及对象缓存池第二部分:从百度的笔试题来探讨如何实现一个缓存池。
2012-05-08 19:31:37 21688 1
最优客运车次乘车路线系统数据库
2009-02-23
列车车次查询系统数据库
2009-02-23
一个很简单的题目,但是又很难的题目,大家来帮忙看一下
2010-11-26
TA创建的收藏夹 TA关注的收藏夹
TA关注的人