- 博客(2)
- 资源 (5)
- 收藏
- 关注
转载 解决分类样本不平衡问题
样本不平衡会导致出现以下的问题: (1)少数类所包含的信息很有限,难以确定少数类数据的分布,即难以在内部挖掘规律,造成少数类的识别率低; (2)很多分类算法采用分治法,样本空间的逐渐划分会导致数据碎片问题,这样只能在各个独立的子空间中寻找数据的规律,对于少数类来说每个子空间中包含了很少的数据信息,一些跨空间的数据规律就不能被挖掘出来。 (3)不恰当的归纳偏置系统在存在不确定时往往倾向于把样本分
2017-04-09 16:18:37 8619 1
原创 kafka+spark streaming例子入门
启动Kafka Server:bin/zookeeper-server-start.sh config/zookeeper.propertiesbin/kafka-server-start.sh config/server/properties创建topicbin/kafka-topics.sh --create --zookeeper localhost:2181 --replicatio
2017-04-07 09:44:41 869
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人