- 博客(3)
- 收藏
- 关注
原创 数据挖掘随笔:数据集类别不平衡问题
在处理分类问题时,数据集可能会存在类不平衡问题,如在某冰箱厂家生产的10000台冰箱中,有9900台为合格产品,而剩余的100台为不合格产品。在这种情境下,即使采用将全部样本分类为正类的分类器也可以得到99%的准确率,但看似很高的准确率却并没有任何意义,因为在实际应用中需要重点关注的往往正是那些总量只占1%的错误分类样本。这就使得分类器准确性的评估变得没有意义。通过阅读《数据挖掘导论》第五章的相应...
2018-05-23 23:40:06 3812
原创 Spark菜鸟之路(2):IntelLij初探
这里安装了一个用于Scala的IDE——IntelLij,下面来配置一下相关设置进入Configure——Plugins 搜索Scala找到Default Project Structure,创建新的JDK选项在Global Libraries中选择Scala SDK,但是没出来。。。创建Maven工程GroupId,可以理解为用来标志你整个项目组的,或者你这些代码属于某一个完整的项目,比如上面的...
2018-05-16 13:41:41 320
原创 Spark菜鸟之路(1):Spark在Windows10下的环境配置
1)安装Scala从https://www.scala-lang.org/download/all.html下载Scala相应版本查看JAVA版本两种下载还是选择msi吧。。。
2018-05-15 22:09:53 2951 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人