自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 资源 (5)
  • 收藏
  • 关注

原创 数据预处理(特征工程)

本次主要介绍处理分类型特征:编码与哑变量、二值化与分段 略

2019-11-24 22:49:30 283

原创 机器学习-KNN分类算法(下)

之前写了KNN的基本概念和python基本实现方法,并没有对模型的好坏进行判断,接下来使用训练数据集和测试数据集来判断(使用accurcay分类指标) 编写自己的train_test_split测试数据集 未完待续 ...

2019-11-17 21:19:26 122

原创 核对Spark生成的数据流程(一)

日常开发中经常会验证spark生成的数据是否和源oracle库中数据join之后的结果相同? 也就是判断spark sql --> hive sql --> oracle sql 执行结果一致即可,比如我们需要核对201907月的数据: (1)在测试oracle中执行sql select st.sst_code, sum(case when o.order_type ='1072102...

2019-11-12 18:44:53 335

原创 机器学习-KNN分类算法(上)

K近邻算法(k-NearestNeighbor) k近邻算法是机器学习算法最简单的算法,流程如下: (1) 计算测试对象到训练集中每个对象的距离 (2)按照距离的远近排序 (3)选取与当前测试对象最近的k个对象,作为该测试对象的邻居 (4)统计这k个邻居的类别频率 (5)k个邻居里频率最高的类别,即为测试对象的类别 python代码实现 1、自实现KNN算法 import numpy as np ...

2019-11-10 20:54:30 157

druid数据分析原理与实践

Druid实时大数据分析原理与实践.pdf 高清,欧阳辰,数据仓库架构必备。

2019-06-25

大数据及其常用组件介绍

本TTP为大数据及其常用组件的基本介绍(hdfs hive hbase kafka spark kudu impala kylin streamsets)仅供参考。

2018-11-06

Apache Kylin操作流程

Apache Kylin操作流程截图分享,及配套文字讲解,仅做参考。

2018-06-27

n2n windows端

该文件对应csdn博客(n2n内网穿透搭建)中n2n本地服务器的windows端应用程序使用,请配套使用。

2018-05-23

window平台 ncat工具

windows平台下ncat工具,Netcat用于从TCP/UDP连接中读取或发送网络数据。(使用方法:ncat.exe -l -k -p 6666)

2018-03-26

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除