自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(14)
  • 收藏
  • 关注

原创 “黑产“识别算法(社区检测,相似度,关联关系)

"黑产"识别算法前言黑产的特性通过业务特性识别通过关联关系识别(非监督学习)通过行为相似度识别(非监督学习)通过用户画像识别(分类、预测)前言我们讨论的黑产识别,实务上并非单纯算法的问题,在更多的情况下,是一种基于经验性、合规性对于业务全流程和每一个节点的风险控制手段。黑产的特性黑产即黑色产业,是利用非法手段获利的行业或群体。其中当下处在风口浪尖的便是“网络黑产”。但是黑产,并不单单是通过网络手段实时,传统行业、生活中,我们都可能与黑产擦肩而过,受害、有时可能是受益于黑产带来的结果。比如:勒索诈骗

2021-10-14 13:51:45 4815 2

原创 利用XGBoost、Information Value、SHAP寻找“小北极星“指标与分层处理

利用XGBoost、Information Value、SHAP寻找"小北极星"指标与分层处理聚类算法是什么监督学习、非监督学习、半监督学习与强化学习的概念距离计算方法(相似性)K-means算法逻辑如何评价k-means聚类算法k-means聚类算法如何选出最佳k值K-means的优缺点及应用场景改进和其他常用聚类算法与K-means算法类似的k-modes和k-prototypesDensity-based methods基于密度的聚类算法 DBSCAN聚类算法是什么简单来说,聚类算法(cluste

2021-09-03 18:52:02 664

原创 相关性研究思路及代码实现(MIC-最大信息系数、Relif-F特征选择算法、pearson、spearman、kendall、卡方检验、fisher精确检验、F检验、简单粗暴的分层聚合)

相关性研究思路及代码实现为什么要研究相关性?监督学习、非监督学习、半监督学习与强化学习的概念距离计算方法(相似性)K-means算法逻辑如何评价k-means聚类算法k-means聚类算法如何选出最佳k值K-means的优缺点及应用场景改进和其他常用聚类算法与K-means算法类似的k-modes和k-prototypesDensity-based methods基于密度的聚类算法 DBSCAN高斯混合模型GMM聚类算法层次聚类算法感言为什么要研究相关性?工作中经常会有类似相关性验证或探究的过程,出于不

2021-07-25 22:47:30 4521 5

原创 非监督学习-聚类算法概述与代码实现(*K-means, k-modes, k-prototypes, DMSCAN密度聚类, GMM, 层次聚类)

非监督学习-聚类算法概述与代码实现(K-means, k-modes, k-prototypes, DMSCAN密度聚类, GMM, 层次聚类)聚类算法是什么监督学习、非监督学习、半监督学习与强化学习的概念距离计算方法(相似性)K-means算法逻辑如何评价k-means聚类算法k-means聚类算法如何选出最佳k值K-means的优缺点及应用场景改进和其他常用聚类算法与K-means算法类似的k-modes和k-prototypesDensity-based methods基于密度的聚类算法 DBSCAN

2021-02-07 02:46:07 2379 2

原创 (渣男渣女必备之)层次分析法AHP-Analytic Hierarchy Process操作流程及代码实现

层次分析法AHP-Analytic Hierarchy Process操作流程及代码实现前言层次分析法AHP(Analytic Hierarchy Process)的选择操作流程梳理及控制计算逻辑梳理代码实现文献引用前言坚持做一个”技术“搬运工,总结互相学习成长。项目中遇到一个给出评估分的需求,一开始会想到分数用类似评分卡模型(logit),或者分类模型用于给评定级别。但是这两种都属于监督学习范畴,我们遇到的情况是压根也没有监督值,甚至需要我们去创造出一个监督值,于是在美丽的PMO小姐姐的建议下,我们决

2020-12-26 02:28:49 2073 7

原创 分布式系统MaxCompute/Hadoop日志分析与优化流程

很久没有认真复盘一下,接着两年前的文章Hadoop性能优化概述-数据膨胀&数据倾斜系统性总结一下优化方案和如何从日志中分析性能卡点,同时方便自己加深印象0.0~我们在提交作业后,一般会分为4各阶段:(1)预处理阶段;(2)编译阶段;(3)执行阶段;(4)结果返回。其中,预处理阶段除了语法、调度配置与参数配置等出现问题外,一般不会成为卡点。我们重点关注复杂任务的编译、执行阶段的优化以及性能卡点。

2023-03-24 17:20:35 544

原创 Hadoop性能优化概述-数据膨胀&数据倾斜

Hadoop性能优化思路_数据膨胀&数据倾斜MapReduce执行过程基本概念处理流程1. 数据输入2. map过程3. shuffle过程4. reduce阶段数据倾斜数据倾斜的原因数据倾斜的优化办法开启参数数据仓库设计层面join倾斜优化group by倾斜优化multi distinct倾斜优化数据膨胀MapReduce执行过程基本概念mapreduce是一种适合大数据处理的编程模型,程序的本质就是并发,核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发

2021-12-24 17:59:23 1097

原创 多维度分簇可视化

多维度分簇可视化前言案例传统二维\三维图二维图三维图N维图pairplotPCA主成分分析多维度量尺(Multi-dimensional scaling, MDS)TSNE(t-distributed Stochastic Neighbor Embedding)前言前段时间做各种样本分簇,发现维度有很多,又很难在二位图形可视化中表达清楚。于是稍微总结了一些常用地可视化的方法,也就是对数据降维,将每个样本的特征刻画在一种二维图形中。案例背景:某游戏公司收集每一位玩家的行为数据以及其属性,加工后制作数

2021-10-22 20:18:39 1309

原创 算法优化---向量数组计算替代元素级别判断

算法优化---数组计算替代判断目录前言元素级别迭代与series,ndarray的迭代测试series, ndarray之间的数学计算,替代元素遍历判断。插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流...

2020-04-23 14:50:10 630

原创 内存优化——chunksize、内存释放、制作json、矩阵压缩、datatype转换、去除冗余

内存优化——chunksize、内存释放、矩阵压缩、datatype转换、去除冗余前言选择正确的方法ChunkSize内存释放制作json(或字典)矩阵压缩datatype转换去除冗余前言之前工作很少遇到内存方面的困扰。前段时间朋友找我帮忙做一家某小型上市银行一年期的交易数据JE,百亿量级。吭哧吭哧写完代码,结果放在她的本地运行直接内存爆掉。于是稍微尝试了一些内存优化的方法,记录一下心德。选...

2020-03-27 02:42:28 1450

原创 堆栈(Stack)结构在迭代中的运用

目录:1. 前言2. 栈机构的概览3. 应用案例及分析4. 局限性1.前言前段时间写了几个迭代的脚本,有感而发,于是打算系统的记录一下关于这方面的思考。顺便做一个中二的搬运工~迭代算法我们经常会遇到,它本身并不难,通俗讲就是重复反馈过程。无论什么情况,总会有最直接的办法,遍历每一个元素(类似穷举法)。但是当我们对时间复杂度O有所要求时候,就会去想办法加快这一进程的运算效率。下面讲述...

2020-02-16 17:39:52 808

原创 pandas/numpy数据结构算法(之行列变换)(二) (tag:行列转换,迪卡尔积,内置函数,数据结构)

目录:1. Numpy-diag 矩阵变换2. stack()/unstack()3. pd.pivot_table()4. pd.melt()5. groupby聚类算法6. mapping小技巧前言最近遇到很多需要迭代和归并数据的情况,一直以来的做法,都是循环主要的键,去进行后续操作。这是最典型的Python 操作,然而还是上次提到的效率问题。记得之前朋友和我讲过Py的历史,甚...

2019-12-08 00:32:26 710

原创 pandas代码优化--"大"数据算法效率(一) (tag:升维度,遍历,循环,内置函数,数据结构)

目录:1. 前言2. 概览3. 肮脏代码与相对改良(例)4. @pyspark,SQL优化…1.前言笔者小白,从事SAAS开发工作(其实是个写脚本的初级菜鸟),在工作中饱受挫折,于是下定决心,更新自己操作中的心德,一来可以分享给其他朋友让大家避免我的歧途,二来可以随时总结,加深记忆。文章如有问题,欢迎大神及时指正,互相学习进步~!2.概览当下主流操作亿兆级别大数据主要还是Apac...

2019-11-13 19:07:46 773

原创 新手---Python爬虫全流程(通俗版--案例NASDAQ)

个人理解的Python爬虫流程(通俗版–案例NASDAQ)目录:准备阶段:python安装,相关packages安装。先拿一个目标做测试、编程研究。组装整体框架。结果输出。优化"算法"。应对“反爬虫”技术。1.准备阶段:python安装,相关packages安装(1) python安装:Python安装大部分帖子都有涉及到,但是选择好的语言环境更方便于日后的工作。个人更加喜欢...

2019-11-12 14:42:16 4081

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除