就是说把样本按每类的数量从高到低排列,前面少数几类占据了(绝)大多数样本,而后面的很多类占据了少数样本。
- 比如, 在电商这块,淘宝、拼多多、抖音和京东这几个企业占据了市场的80%,苏宁易购、美团和其他小企业等还有许多小众许多网购平台占据后面的20%。是说什么呢,就是说多数资源被少数类别占据,剩下的少数资源被大多类占据。
再比如,有一些样本,包含A、B、C、D和E五种关系。按照他们的数量多少排序如下:
- A:1000
- C:200
- B:40
- D:10
- E:3
A和C占据了绝大多数样本,B 、D、E这些更多的类占据少数样本。看下图,B、D和E像一个长尾巴。
我说明白了吗?
没有?
哦。反正我是写给自己的。