2019年11月_lhxsir

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

原创数据预处理（特征工程）

本次主要介绍处理分类型特征：编码与哑变量、二值化与分段略

2019-11-24 22:49:30 283

原创机器学习-KNN分类算法（下）

之前写了KNN的基本概念和python基本实现方法，并没有对模型的好坏进行判断，接下来使用训练数据集和测试数据集来判断（使用accurcay分类指标）编写自己的train_test_split测试数据集未完待续 ...

2019-11-17 21:19:26 122

原创核对Spark生成的数据流程（一）

日常开发中经常会验证spark生成的数据是否和源oracle库中数据join之后的结果相同？也就是判断spark sql --> hive sql --> oracle sql 执行结果一致即可，比如我们需要核对201907月的数据： (1)在测试oracle中执行sql select st.sst_code, sum(case when o.order_type ='1072102...

2019-11-12 18:44:53 335

K近邻算法(k-NearestNeighbor) k近邻算法是机器学习算法最简单的算法，流程如下： (1) 计算测试对象到训练集中每个对象的距离 (2)按照距离的远近排序 (3)选取与当前测试对象最近的k个对象，作为该测试对象的邻居 (4)统计这k个邻居的类别频率 (5)k个邻居里频率最高的类别，即为测试对象的类别 python代码实现 1、自实现KNN算法 import numpy as np ...

2019-11-10 20:54:30 157

druid数据分析原理与实践

Druid实时大数据分析原理与实践.pdf 高清，欧阳辰，数据仓库架构必备。

2019-06-25

大数据及其常用组件介绍

本TTP为大数据及其常用组件的基本介绍（hdfs hive hbase kafka spark kudu impala kylin streamsets）仅供参考。

2018-11-06

Apache Kylin操作流程

Apache Kylin操作流程截图分享，及配套文字讲解，仅做参考。

2018-06-27

n2n windows端

该文件对应csdn博客（n2n内网穿透搭建）中n2n本地服务器的windows端应用程序使用，请配套使用。

2018-05-23

window平台 ncat工具

windows平台下ncat工具，Netcat用于从TCP/UDP连接中读取或发送网络数据。（使用方法：ncat.exe -l -k -p 6666）

2018-03-26

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

lhxsir的博客

原创数据预处理（特征工程）

原创机器学习-KNN分类算法（下）

原创核对Spark生成的数据流程（一）

原创机器学习-KNN分类算法（上）

druid数据分析原理与实践

大数据及其常用组件介绍

Apache Kylin操作流程

n2n windows端

window平台 ncat工具

空空如也

原创 数据预处理（特征工程）

原创 机器学习-KNN分类算法（下）

原创 核对Spark生成的数据流程（一）

原创 机器学习-KNN分类算法（上）

druid数据分析原理与实践

大数据及其常用组件介绍

Apache Kylin操作流程

n2n windows端

window平台 ncat工具

空空如也

原创数据预处理（特征工程）

原创机器学习-KNN分类算法（下）

原创核对Spark生成的数据流程（一）

原创机器学习-KNN分类算法（上）