nobody~
码龄8年
  • 1,583,693
    被访问
  • 130
    原创
  • 190,073
    排名
  • 1,242
    粉丝
关注
提问 私信
  • 加入CSDN时间: 2014-06-17
博客简介:

Magician的博客

查看详细资料
  • 5
    领奖
    总分 1,793 当月 42
个人成就
  • 获得1,000次点赞
  • 内容获得280次评论
  • 获得4,581次收藏
创作历程
  • 5篇
    2021年
  • 9篇
    2020年
  • 15篇
    2019年
  • 79篇
    2018年
  • 62篇
    2017年
  • 25篇
    2016年
成就勋章
TA的专栏
  • 自学机器学习之路
    26篇
  • 自学大数据之路
    48篇
  • Python总结
    8篇
  • Hive&Spark SQL总结
    4篇
  • 数据挖掘
    1篇
  • NLP
    7篇
兴趣领域 设置
  • 大数据
    hadoophive
  • 人工智能
    数据挖掘机器学习自然语言处理
  • 最近
  • 文章
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

异常检测算法之HBOS

前言HBOS(Histogram-based Outlier Score)核心思想:将样本按照特征分成多个区间,样本数少的区间是异常值的概率大。原理该方法为每一个样本进行异常评分,评分越高越可能是异常点。评分模型为:假设样本p第 i 个特征的概率密度为Pi ,则p的概率密度可以计算为(多个特征的概率密度的乘积):两边取对数:概率密度越大,异常评分越小,则两边乘以“-1”:即:如何计算概率密度,特别是对于连续型数据?最简单的方法是对连续数据进行离散化。离散化的基本思想是设置“断点”,
原创
发布博客 2021.09.07 ·
405 阅读 ·
1 点赞 ·
0 评论

异常检测算法之LOF

前言:LOF:Local outlier factor,即局部异常因子。LOF主要是通过比较每个点p和其邻域点的密度来判断该点是否为异常点,如果点p的密度越低,越可能被认定是异常点。至于密度,是通过点之间的距离来计算的,点之间距离越远,密度越低,距离越近,密度越高,完全符合我们的理解。而且,因为lof对密度的计算是通过点的k邻域来计算,而不是全局计算,因此得名为“局部”异常因子。即LOF是基于密度分析,通过局部的数据密度来检测异常。原理LOF算法,是基于密度的离群点检测方法中一个比较有代表性的算法。该
原创
发布博客 2021.09.07 ·
1916 阅读 ·
1 点赞 ·
1 评论

异常检测算法之IForest

前言IForest即孤立森林,可以用于做异常检测。一句话总结IForest做异常检测的原理:异常点密度小,基于树模型容易被一下切割出来,正常值密度大,需要切割多次才能得到目标值。原理iForest算法得益于随机森林的思想,与随机森林由大量决策树组成一样,iForest森林也由大量的二叉树组成。iForest中的树叫isolation tree,简称iTree。iTree树和决策树不太一样,其构建过程也比决策树简单,是一个完全随机的过程。每个iTree的实现步骤1、 假设数据集有N条数据,构建一颗i
原创
发布博客 2021.09.02 ·
518 阅读 ·
1 点赞 ·
1 评论

机器学习算法之KNN

前言KNN一般用于有监督的分类场景,除此之外,KNN在异常检测场景中也有应用,下面主要介绍下KNN在这两面的应用原理。KNN做分类的原理计算步骤如下:1)算距离:给定测试对象,计算它与训练集中的每个对象的距离2)找邻居:圈定距离最近的k个训练对象,作为测试对象的近邻3)做分类:根据这k个近邻归属的主要类别,来对测试对象分类(看未知类别样本最近的K个样本的类别,那种类别多,样本就属于那种类别!)优缺点KNN优点:理论成熟,思想简单,既可以用来做分类也可以用来做回归可用于非线性分类训练
原创
发布博客 2021.09.01 ·
149 阅读 ·
0 点赞 ·
0 评论

聚类效果评估指标总结

前言实际工作中经常会用到一些聚类算法对一些数据进行聚类处理,如何评估每次聚类效果的好坏?可选的方法有1、根据一些聚类效果的指标来评估;2、直接打点。今天就主要总结下这段时间了解的聚类效果评估指标。废话少说,直接上干货。针对数据有类别标签的情况Adjusted Rand index (ARI)优点:1.1 对任意数量的聚类中心和样本数,随机聚类的ARI都非常接近于0;1.2 取值在[-1,1]之间,负数代表结果不好,越接近于1越好;1.3 可用于聚类算法之间的比较缺点:1.4 ARI需要真实
原创
发布博客 2021.08.30 ·
6050 阅读 ·
6 点赞 ·
0 评论

申请评分卡(A卡)的开发过程(1)

前言:本篇文章上接《申请评分卡简介》,有需要的童鞋可以参考下:https://blog.csdn.net/qq_16633405/article/details/107744921下面介绍下A卡的开发步骤。开发过程1、评分卡模型开发步骤:1、立项:场景(营销、信贷领域)、对象(个人、账户、公司)、目的(程度决策、流失预警、反欺诈等等)2、数据的准备与预处理(账户,客户,内部外部数据)3、建模的构建(逻辑回归VS机器学习,单一模型VS 集成模型)4、模型评估(区分度,预测性,稳定性)5、验证
原创
发布博客 2020.08.23 ·
1034 阅读 ·
3 点赞 ·
0 评论

linux生产环境下安装anaconda总结

前言:工作中,常常要在新的linux生产服务器中安装自己的集成python环境,这种情况下有一点需要注意:不能覆盖生产服务器中的python环境(也就是自己的python环境要和系统的python环境分开)。一般情况下系统自带的python环境一般为2,而我们需要的python环境一般为3。并且生产服务器一般是安全等级比较高的,一般是断网的状态,这也就意味着所有的安装操作都要手动进行(PS:一行指令的事就此变成漫长的折腾)。为了顺利完成安装python3的环境,就需要你事先做好准备,不然把生产环境搞出问
原创
发布博客 2020.08.15 ·
406 阅读 ·
0 点赞 ·
0 评论

互联网金融行业申请评分卡(A卡)简介

文章目录前言基本概念1、信用违约风险的基本概念什么是信用违约风险:组成部分违约的主体个贷中常用的违约定义M0,M1,M2的定义2、申请评分卡的重要性和特性信贷场景中的评分卡申请评分卡的概念为什么要开发申请评分卡评分卡的特性 (一个人的信用分数由两部分组成:还款能力和还款意愿)贷前准入环节中申请评分卡的流程总结:前言最近会总结下我了解到的互金行业各个评分卡的知识,包括但不限于A,B,C卡以及相关的业务知识和用到的技术。很早之前就有这样的想法,最近刚好有这样的机会,就简单记录下。如果有问题,请大家及时指正。
原创
发布博客 2020.08.02 ·
1085 阅读 ·
1 点赞 ·
0 评论

win10下安装pyspark及碰到的问题

文章目录前言安装过程Q1总结:前言最近由于工作需要,需要了解下pyspark,所以就在win10环境下装了下,然后在pycharm中使用的时候碰到了一些问题。整个过程可谓是一波三折。下面一一道来。安装过程安装过程就不详细说了,网上一搜一大堆,这里写下自己参考的博文:https://blog.csdn.net/w417950004/article/details/77203501安装好之后如何在pycharm中使用?网上有文章说要在对应的文件中配置相关的spark_home地址等。详情参考:h
原创
发布博客 2020.08.02 ·
811 阅读 ·
2 点赞 ·
0 评论

浅谈管理数据平台的一些想法

前言:对于任何使用大数据技术的公司来说,大数据平台特别是Hive来说,维护其高效快速的运行,对整个公司的运作来说至关重要。比如说:某个调度任务失败了造成业务部门的某些报表无法正常产出;hive平台最近速度下降了,造成业务跑sql,跑半天不出结果,进而发起投诉等等。对于数据平台来说任何一个小的事故轻则造成公司的运行效率降低,重则使整个公司的业务运行异常(异常可能不会被立刻发现)等等,可以夸张点的说...
原创
发布博客 2020.04.18 ·
448 阅读 ·
0 点赞 ·
0 评论

SQL中基于代价的优化

还记得笔者在上篇文章无意中挖的一个坑么?如若不知,强烈建议看官先行阅读前面两文-《SparkSQL Join原理》和《Join中竟然也有谓词下推?》第一篇文章主要分析了大数据领域Join的三种基础算法以及各自的适用场景,第二篇文章在第一篇的基础上进一步深入,讨论了Join基础算法的一种优化方案 – Runtime Filter,文章最后还引申地聊了聊谓词下推技术。同时,在第二篇文章开头,笔者引...
转载
发布博客 2020.04.05 ·
1204 阅读 ·
1 点赞 ·
0 评论

Spark&HiveSQL中Join操作的谓词下推?

前言:SparkSQL和HiveSQL的Join操作中也有谓词下推?今天就通过大神的文章来了解下。同样,如有冒犯,请联系。正文上文简要介绍了Join在大数据领域中的使用背景以及常用的几种算法-broadcast hash join 、shuffle hash join以及sort merge join等,对每一种算法的核心应用场景也做了相关介绍,这里再重点说明一番:大表与小表进行join会使...
转载
发布博客 2020.04.03 ·
641 阅读 ·
0 点赞 ·
0 评论

SparkSQL之Join原理

文章目录前言:Join背景介绍Join常见分类以及基本实现机制Hash JoinBroadcast Hash JoinShuffle Hash JoinSort-Merge Join总结前言:写SQL的时候很多时候都有用到join语句,但是我们真的有仔细想过数据在join的过程到底是怎么样的吗?今天借这位大神的文章来交接下sql中join的原理。同样,如有冒犯,请联系。Join背景介绍Jo...
转载
发布博客 2020.04.02 ·
3043 阅读 ·
5 点赞 ·
0 评论

SparkSQL-从0到1认识Catalyst

文章目录前言正文预备知识-Tree&RuleCatalyst工作流程ParserAnalyzerOptimizerSparkSQL执行计划前言这篇文章是转载一位大神的文章,为什么要转载的,实在是因为写的太经典了,所以忍不住希望能有更多的人可以看到。如有冒犯请联系我。正文最近想来,大数据相关技术与传统型数据库技术很多都是相互融合、互相借鉴的。传统型数据库强势在于其久经考验的SQL优化...
转载
发布博客 2020.04.01 ·
297 阅读 ·
0 点赞 ·
0 评论

Git常用指令及功能总结

前言:最近有些懒,加之又被一些琐事缠身,所以博客就更的比较慢,后面还是保持一个月最少2-3篇的频率,分享一些最近学的东西,希望我们能一起成长。今天就简单介绍下常用的Git指令吧,主要适用于那些刚需这些指令完成某些需求的人群。博主也是小白一个,主要分享下一些常用的功能吧。1、常用的git指令git clone git@192.168.2.252:hadoop/rce.git //用于将远...
原创
发布博客 2019.12.28 ·
234 阅读 ·
0 点赞 ·
0 评论

Linux命令三剑客:grep、sed、awk总结

最近看到了几篇关于linux命令grep、sed、awk的文章,这里总结下,方便后面使用。一、grepgrep命令(grep的全称:Global search Regular Expression and Print out the line)主要用于文本内容的查找。它支持正则表达式查找。命令语法grep提供两种方式:◆ grep [option] [pattern] testfile...
原创
发布博客 2019.09.28 ·
1080 阅读 ·
1 点赞 ·
0 评论

Python开发中收集的一些常用功能Demo

前言:虽然之前自学了些Python基础,但是一段时间没用再加上学的时间也比较短,搞的现在重拾Python写代码的时候,总要去查一些API(还是Coding不够,仍需多加实践),但整个过程又比较耗时。所以就准备把之前以及以后遇到的一些常用的功能Demo给记录下来,方便自己后来查看。此文章会不定时一直更新。1、Python判断文件是否存在的几种方法:通常在读写文件之前,需要判断文件或目...
原创
发布博客 2019.08.17 ·
834 阅读 ·
2 点赞 ·
1 评论

导入Anaconda中的第三方库运行时报错:ImportError: Missing required dependencies ['pandas']

今天碰到一个大坑,花了大半天才搞明白问题出在哪来。事情的经过是这样的:博主下午手贱把已将装好anaconda2给卸载了(同时装了2和3),然后再次安装anconda2后,却发现配置完pycharm的解释器后,代码报错::ImportError: DLL load failed:“xxxx模块没发现”或者ImportError: Missing required dependencies [‘XXX...
原创
发布博客 2019.08.11 ·
4341 阅读 ·
2 点赞 ·
0 评论

azkaban的操作指南

前言:最近在实际工作中玩到了Azkaban,虽然之前有简单的接触,但是真正用到的时候,才能体会到这个工具的实用性有多强,总结下真个操作过程。在总结整个操作过程之前先简单描述下工作流调度系统的优势。1、工作流调度系统的优势一个完整的数据分析系统通常都是由大量任务单元组成:shell脚本程序,java程序,mapreduce程序、hive脚本等各任务单元之间存在时间先后及前后依赖关系为了...
原创
发布博客 2019.08.03 ·
1038 阅读 ·
0 点赞 ·
0 评论

Azkaban简介及安装教程

前言:最近在实际工作中玩到了Azkaban,虽然之前有简单的接触,但是真正用到的时候,才能体会到这个工具的实用性有多强。下面就写个系列文章来记录下azkaban从简介及安装配置再到简单使用的一个过程。1、概述1.1、为什么需要工作流调度系统一个完整的数据分析系统通常都是由大量任务单元组成:shell脚本程序,java程序,mapreduce程序、hive脚本等各任务单元之间存在时间先...
原创
发布博客 2019.08.03 ·
555 阅读 ·
0 点赞 ·
0 评论
加载更多