- 博客(4)
- 资源 (5)
- 收藏
- 关注
原创 机器学习-KNN分类算法(下)
之前写了KNN的基本概念和python基本实现方法,并没有对模型的好坏进行判断,接下来使用训练数据集和测试数据集来判断(使用accurcay分类指标) 编写自己的train_test_split测试数据集 未完待续 ...
2019-11-17 21:19:26 122
原创 核对Spark生成的数据流程(一)
日常开发中经常会验证spark生成的数据是否和源oracle库中数据join之后的结果相同? 也就是判断spark sql --> hive sql --> oracle sql 执行结果一致即可,比如我们需要核对201907月的数据: (1)在测试oracle中执行sql select st.sst_code, sum(case when o.order_type ='1072102...
2019-11-12 18:44:53 335
原创 机器学习-KNN分类算法(上)
K近邻算法(k-NearestNeighbor) k近邻算法是机器学习算法最简单的算法,流程如下: (1) 计算测试对象到训练集中每个对象的距离 (2)按照距离的远近排序 (3)选取与当前测试对象最近的k个对象,作为该测试对象的邻居 (4)统计这k个邻居的类别频率 (5)k个邻居里频率最高的类别,即为测试对象的类别 python代码实现 1、自实现KNN算法 import numpy as np ...
2019-11-10 20:54:30 157
大数据及其常用组件介绍
2018-11-06
window平台 ncat工具
2018-03-26
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人