Mr.Stubborn�-CSDN博客

原创 “黑产“识别算法(社区检测，相似度，关联关系)

"黑产"识别算法前言黑产的特性通过业务特性识别通过关联关系识别（非监督学习）通过行为相似度识别（非监督学习）通过用户画像识别(分类、预测)前言我们讨论的黑产识别，实务上并非单纯算法的问题，在更多的情况下，是一种基于经验性、合规性对于业务全流程和每一个节点的风险控制手段。黑产的特性黑产即黑色产业，是利用非法手段获利的行业或群体。其中当下处在风口浪尖的便是“网络黑产”。但是黑产，并不单单是通过网络手段实时，传统行业、生活中，我们都可能与黑产擦肩而过，受害、有时可能是受益于黑产带来的结果。比如：勒索诈骗

2021-10-14 13:51:45 4815 2

原创利用XGBoost、Information Value、SHAP寻找“小北极星“指标与分层处理

利用XGBoost、Information Value、SHAP寻找"小北极星"指标与分层处理聚类算法是什么监督学习、非监督学习、半监督学习与强化学习的概念距离计算方法（相似性）K-means算法逻辑如何评价k-means聚类算法k-means聚类算法如何选出最佳k值K-means的优缺点及应用场景改进和其他常用聚类算法与K-means算法类似的k-modes和k-prototypesDensity-based methods基于密度的聚类算法 DBSCAN聚类算法是什么简单来说，聚类算法（cluste

2021-09-03 18:52:02 664

原创相关性研究思路及代码实现（MIC-最大信息系数、Relif-F特征选择算法、pearson、spearman、kendall、卡方检验、fisher精确检验、F检验、简单粗暴的分层聚合）

相关性研究思路及代码实现为什么要研究相关性？监督学习、非监督学习、半监督学习与强化学习的概念距离计算方法（相似性）K-means算法逻辑如何评价k-means聚类算法k-means聚类算法如何选出最佳k值K-means的优缺点及应用场景改进和其他常用聚类算法与K-means算法类似的k-modes和k-prototypesDensity-based methods基于密度的聚类算法 DBSCAN高斯混合模型GMM聚类算法层次聚类算法感言为什么要研究相关性？工作中经常会有类似相关性验证或探究的过程，出于不

2021-07-25 22:47:30 4521 5

原创非监督学习-聚类算法概述与代码实现（*K-means, k-modes, k-prototypes, DMSCAN密度聚类, GMM, 层次聚类）

非监督学习-聚类算法概述与代码实现（K-means, k-modes, k-prototypes, DMSCAN密度聚类, GMM, 层次聚类）聚类算法是什么监督学习、非监督学习、半监督学习与强化学习的概念距离计算方法（相似性）K-means算法逻辑如何评价k-means聚类算法k-means聚类算法如何选出最佳k值K-means的优缺点及应用场景改进和其他常用聚类算法与K-means算法类似的k-modes和k-prototypesDensity-based methods基于密度的聚类算法 DBSCAN

2021-02-07 02:46:07 2379 2

原创 (渣男渣女必备之)层次分析法AHP-Analytic Hierarchy Process操作流程及代码实现

层次分析法AHP-Analytic Hierarchy Process操作流程及代码实现前言层次分析法AHP（Analytic Hierarchy Process）的选择操作流程梳理及控制计算逻辑梳理代码实现文献引用前言坚持做一个”技术“搬运工，总结互相学习成长。项目中遇到一个给出评估分的需求，一开始会想到分数用类似评分卡模型（logit），或者分类模型用于给评定级别。但是这两种都属于监督学习范畴，我们遇到的情况是压根也没有监督值，甚至需要我们去创造出一个监督值，于是在美丽的PMO小姐姐的建议下，我们决

2020-12-26 02:28:49 2073 7

原创分布式系统MaxCompute/Hadoop日志分析与优化流程

很久没有认真复盘一下，接着两年前的文章Hadoop性能优化概述-数据膨胀&数据倾斜系统性总结一下优化方案和如何从日志中分析性能卡点，同时方便自己加深印象0.0~我们在提交作业后，一般会分为4各阶段：（1）预处理阶段；（2）编译阶段；（3）执行阶段；（4）结果返回。其中，预处理阶段除了语法、调度配置与参数配置等出现问题外，一般不会成为卡点。我们重点关注复杂任务的编译、执行阶段的优化以及性能卡点。

2023-03-24 17:20:35 544

原创 Hadoop性能优化概述-数据膨胀&数据倾斜

Hadoop性能优化思路_数据膨胀&数据倾斜MapReduce执行过程基本概念处理流程1. 数据输入2. map过程3. shuffle过程4. reduce阶段数据倾斜数据倾斜的原因数据倾斜的优化办法开启参数数据仓库设计层面join倾斜优化group by倾斜优化multi distinct倾斜优化数据膨胀MapReduce执行过程基本概念mapreduce是一种适合大数据处理的编程模型，程序的本质就是并发，核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序，并发

2021-12-24 17:59:23 1097

原创多维度分簇可视化

多维度分簇可视化前言案例传统二维\三维图二维图三维图N维图pairplotPCA主成分分析多维度量尺（Multi-dimensional scaling, MDS）TSNE（t-distributed Stochastic Neighbor Embedding）前言前段时间做各种样本分簇，发现维度有很多，又很难在二位图形可视化中表达清楚。于是稍微总结了一些常用地可视化的方法，也就是对数据降维，将每个样本的特征刻画在一种二维图形中。案例背景：某游戏公司收集每一位玩家的行为数据以及其属性，加工后制作数

2021-10-22 20:18:39 1309

Monkeyhou1992的博客

原创 “黑产“识别算法(社区检测，相似度，关联关系)

原创利用XGBoost、Information Value、SHAP寻找“小北极星“指标与分层处理

原创相关性研究思路及代码实现（MIC-最大信息系数、Relif-F特征选择算法、pearson、spearman、kendall、卡方检验、fisher精确检验、F检验、简单粗暴的分层聚合）

原创非监督学习-聚类算法概述与代码实现（*K-means, k-modes, k-prototypes, DMSCAN密度聚类, GMM, 层次聚类）

原创 (渣男渣女必备之)层次分析法AHP-Analytic Hierarchy Process操作流程及代码实现

原创分布式系统MaxCompute/Hadoop日志分析与优化流程

原创 Hadoop性能优化概述-数据膨胀&数据倾斜

原创多维度分簇可视化

原创算法优化---向量数组计算替代元素级别判断

原创内存优化——chunksize、内存释放、制作json、矩阵压缩、datatype转换、去除冗余

原创堆栈（Stack）结构在迭代中的运用

原创 pandas/numpy数据结构算法（之行列变换）(二) （tag:行列转换，迪卡尔积，内置函数，数据结构）

原创 pandas代码优化--"大"数据算法效率(一) （tag:升维度，遍历，循环，内置函数，数据结构）

原创新手---Python爬虫全流程（通俗版--案例NASDAQ）

空空如也

空空如也