nobody~-CSDN博客

原创浅谈管理数据平台的一些想法

前言：对于任何使用大数据技术的公司来说，大数据平台特别是Hive来说，维护其高效快速的运行，对整个公司的运作来说至关重要。比如说：某个调度任务失败了造成业务部门的某些报表无法正常产出；hive平台最近速度下降了，造成业务跑sql，跑半天不出结果，进而发起投诉等等。对于数据平台来说任何一个小的事故轻则造成公司的运行效率降低，重则使整个公司的业务运行异常（异常可能不会被立刻发现）等等，可以夸张点的说...

2020-04-18 22:17:53 669

原创 Linux常用命令总结

系统目录结构 bin (binaries)存放二进制可执行文件 sbin (super user binaries)存放二进制可执行文件，只有root才能访问 etc (etcetera)存放系统配置文件 usr (unix shared resources)用于存放共享的系统资源 home 存放用户文件的根目录 root 超级用户目录 dev...

2017-09-23 22:06:51 1105

原创异常检测算法之HBOS

前言HBOS（Histogram-based Outlier Score）核心思想：将样本按照特征分成多个区间，样本数少的区间是异常值的概率大。原理该方法为每一个样本进行异常评分，评分越高越可能是异常点。评分模型为：假设样本p第 i 个特征的概率密度为Pi ，则p的概率密度可以计算为（多个特征的概率密度的乘积）：两边取对数：概率密度越大，异常评分越小，则两边乘以“-1”：即：如何计算概率密度，特别是对于连续型数据？最简单的方法是对连续数据进行离散化。离散化的基本思想是设置“断点”，

2021-09-07 14:17:28 1517

原创异常检测算法之LOF

前言：LOF：Local outlier factor，即局部异常因子。LOF主要是通过比较每个点p和其邻域点的密度来判断该点是否为异常点，如果点p的密度越低，越可能被认定是异常点。至于密度，是通过点之间的距离来计算的，点之间距离越远，密度越低，距离越近，密度越高，完全符合我们的理解。而且，因为lof对密度的计算是通过点的k邻域来计算，而不是全局计算，因此得名为“局部”异常因子。即LOF是基于密度分析，通过局部的数据密度来检测异常。原理LOF算法，是基于密度的离群点检测方法中一个比较有代表性的算法。该

2021-09-07 11:29:32 13633 4

原创异常检测算法之IForest

前言IForest即孤立森林，可以用于做异常检测。一句话总结IForest做异常检测的原理：异常点密度小，基于树模型容易被一下切割出来，正常值密度大，需要切割多次才能得到目标值。原理iForest算法得益于随机森林的思想，与随机森林由大量决策树组成一样，iForest森林也由大量的二叉树组成。iForest中的树叫isolation tree，简称iTree。iTree树和决策树不太一样，其构建过程也比决策树简单，是一个完全随机的过程。每个iTree的实现步骤1、假设数据集有N条数据，构建一颗i

2021-09-02 14:20:01 3777 1

原创机器学习算法之KNN

前言KNN一般用于有监督的分类场景，除此之外，KNN在异常检测场景中也有应用，下面主要介绍下KNN在这两面的应用原理。KNN做分类的原理计算步骤如下：1）算距离：给定测试对象，计算它与训练集中的每个对象的距离2）找邻居：圈定距离最近的k个训练对象，作为测试对象的近邻3）做分类：根据这k个近邻归属的主要类别，来对测试对象分类（看未知类别样本最近的K个样本的类别，那种类别多，样本就属于那种类别！）优缺点KNN优点：理论成熟，思想简单，既可以用来做分类也可以用来做回归可用于非线性分类训练

2021-09-01 16:33:01 1108

原创聚类效果评估指标总结

前言实际工作中经常会用到一些聚类算法对一些数据进行聚类处理，如何评估每次聚类效果的好坏？可选的方法有1、根据一些聚类效果的指标来评估；2、直接打点。今天就主要总结下这段时间了解的聚类效果评估指标。废话少说，直接上干货。针对数据有类别标签的情况Adjusted Rand index (ARI)优点：1.1 对任意数量的聚类中心和样本数，随机聚类的ARI都非常接近于0；1.2 取值在［－1，1］之间，负数代表结果不好，越接近于1越好；1.3 可用于聚类算法之间的比较缺点：1.4 ARI需要真实

2021-08-30 14:42:16 35117 2

原创申请评分卡（A卡）的开发过程（1）

前言：本篇文章上接《申请评分卡简介》，有需要的童鞋可以参考下：https://blog.csdn.net/qq_16633405/article/details/107744921下面介绍下A卡的开发步骤。开发过程1、评分卡模型开发步骤：1、立项：场景（营销、信贷领域）、对象（个人、账户、公司）、目的（程度决策、流失预警、反欺诈等等）2、数据的准备与预处理（账户，客户，内部外部数据）3、建模的构建（逻辑回归VS机器学习，单一模型VS 集成模型）4、模型评估（区分度，预测性，稳定性）5、验证

2020-08-23 14:17:10 1411

原创 linux生产环境下安装anaconda总结

前言：工作中，常常要在新的linux生产服务器中安装自己的集成python环境，这种情况下有一点需要注意：不能覆盖生产服务器中的python环境（也就是自己的python环境要和系统的python环境分开）。一般情况下系统自带的python环境一般为2，而我们需要的python环境一般为3。并且生产服务器一般是安全等级比较高的，一般是断网的状态，这也就意味着所有的安装操作都要手动进行（PS：一行指令的事就此变成漫长的折腾）。为了顺利完成安装python3的环境，就需要你事先做好准备，不然把生产环境搞出问

2020-08-15 15:23:30 934

原创互联网金融行业申请评分卡（A卡）简介

文章目录前言基本概念1、信用违约风险的基本概念什么是信用违约风险：组成部分违约的主体个贷中常用的违约定义M0，M1，M2的定义2、申请评分卡的重要性和特性信贷场景中的评分卡申请评分卡的概念为什么要开发申请评分卡评分卡的特性（一个人的信用分数由两部分组成：还款能力和还款意愿）贷前准入环节中申请评分卡的流程总结：前言最近会总结下我了解到的互金行业各个评分卡的知识，包括但不限于A,B,C卡以及相关的业务知识和用到的技术。很早之前就有这样的想法，最近刚好有这样的机会，就简单记录下。如果有问题，请大家及时指正。

2020-08-02 16:11:40 1980

原创 win10下安装pyspark及碰到的问题

文章目录前言安装过程Q1总结：前言最近由于工作需要，需要了解下pyspark，所以就在win10环境下装了下，然后在pycharm中使用的时候碰到了一些问题。整个过程可谓是一波三折。下面一一道来。安装过程安装过程就不详细说了，网上一搜一大堆，这里写下自己参考的博文：https://blog.csdn.net/w417950004/article/details/77203501安装好之后如何在pycharm中使用？网上有文章说要在对应的文件中配置相关的spark_home地址等。详情参考：h

2020-08-02 14:21:45 1341

转载 SQL中基于代价的优化

还记得笔者在上篇文章无意中挖的一个坑么？如若不知，强烈建议看官先行阅读前面两文－《SparkSQL Join原理》和《Join中竟然也有谓词下推?》第一篇文章主要分析了大数据领域Join的三种基础算法以及各自的适用场景，第二篇文章在第一篇的基础上进一步深入，讨论了Join基础算法的一种优化方案 – Runtime Filter，文章最后还引申地聊了聊谓词下推技术。同时，在第二篇文章开头，笔者引...

2020-04-05 17:31:08 1951

转载 Spark&HiveSQL中Join操作的谓词下推？

前言：SparkSQL和HiveSQL的Join操作中也有谓词下推？今天就通过大神的文章来了解下。同样，如有冒犯，请联系。正文上文简要介绍了Join在大数据领域中的使用背景以及常用的几种算法－broadcast hash join 、shuffle hash join以及sort merge join等，对每一种算法的核心应用场景也做了相关介绍，这里再重点说明一番：大表与小表进行join会使...

2020-04-03 21:12:28 1148

转载 SparkSQL之Join原理

文章目录前言：Join背景介绍Join常见分类以及基本实现机制Hash JoinBroadcast Hash JoinShuffle Hash JoinSort-Merge Join总结前言：写SQL的时候很多时候都有用到join语句，但是我们真的有仔细想过数据在join的过程到底是怎么样的吗？今天借这位大神的文章来交接下sql中join的原理。同样，如有冒犯，请联系。Join背景介绍Jo...

2020-04-02 21:46:30 4586 1

转载 SparkSQL-从0到1认识Catalyst

文章目录前言正文预备知识－Tree&RuleCatalyst工作流程ParserAnalyzerOptimizerSparkSQL执行计划前言这篇文章是转载一位大神的文章，为什么要转载的，实在是因为写的太经典了，所以忍不住希望能有更多的人可以看到。如有冒犯请联系我。正文最近想来，大数据相关技术与传统型数据库技术很多都是相互融合、互相借鉴的。传统型数据库强势在于其久经考验的SQL优化...

2020-04-01 22:01:34 583

原创 Git常用指令及功能总结

前言：最近有些懒，加之又被一些琐事缠身，所以博客就更的比较慢，后面还是保持一个月最少2-3篇的频率，分享一些最近学的东西，希望我们能一起成长。今天就简单介绍下常用的Git指令吧，主要适用于那些刚需这些指令完成某些需求的人群。博主也是小白一个，主要分享下一些常用的功能吧。1、常用的git指令git clone git@192.168.2.252:hadoop/rce.git //用于将远...

2019-12-28 16:36:27 507

原创 Linux命令三剑客：grep、sed、awk总结

最近看到了几篇关于linux命令grep、sed、awk的文章，这里总结下，方便后面使用。一、grepgrep命令（grep的全称：Global search Regular Expression and Print out the line）主要用于文本内容的查找。它支持正则表达式查找。命令语法grep提供两种方式：◆ grep [option] [pattern] testfile...

2019-09-28 15:31:28 1599

原创 Python开发中收集的一些常用功能Demo

前言：虽然之前自学了些Python基础，但是一段时间没用再加上学的时间也比较短，搞的现在重拾Python写代码的时候，总要去查一些API（还是Coding不够，仍需多加实践），但整个过程又比较耗时。所以就准备把之前以及以后遇到的一些常用的功能Demo给记录下来，方便自己后来查看。此文章会不定时一直更新。1、Python判断文件是否存在的几种方法：通常在读写文件之前，需要判断文件或目...

2019-08-17 14:40:24 1077 1

原创导入Anaconda中的第三方库运行时报错：ImportError: Missing required dependencies ['pandas']

今天碰到一个大坑，花了大半天才搞明白问题出在哪来。事情的经过是这样的：博主下午手贱把已将装好anaconda2给卸载了（同时装了2和3），然后再次安装anconda2后，却发现配置完pycharm的解释器后，代码报错：:ImportError: DLL load failed:“xxxx模块没发现”或者ImportError: Missing required dependencies [‘XXX...

2019-08-11 00:11:11 5575

原创 azkaban的操作指南

前言：最近在实际工作中玩到了Azkaban，虽然之前有简单的接触，但是真正用到的时候，才能体会到这个工具的实用性有多强，总结下真个操作过程。在总结整个操作过程之前先简单描述下工作流调度系统的优势。1、工作流调度系统的优势一个完整的数据分析系统通常都是由大量任务单元组成：shell脚本程序，java程序，mapreduce程序、hive脚本等各任务单元之间存在时间先后及前后依赖关系为了...

2019-08-03 15:10:25 1489

原创 Azkaban简介及安装教程

前言：最近在实际工作中玩到了Azkaban，虽然之前有简单的接触，但是真正用到的时候，才能体会到这个工具的实用性有多强。下面就写个系列文章来记录下azkaban从简介及安装配置再到简单使用的一个过程。1、概述1.1、为什么需要工作流调度系统一个完整的数据分析系统通常都是由大量任务单元组成：shell脚本程序，java程序，mapreduce程序、hive脚本等各任务单元之间存在时间先...

2019-08-03 14:27:20 814

原创 Python第三方库的安装及路径查看总结

文章目录1、python第三方库的四种安装方法2、更换安装的第三方库的镜像源3、如何查看查看python安装路径以及pip安装的包列表及路径3.1、Linux环境下查看Python路径3.2、查看使用pip安装的软件包3.3、Windows 环境查看Python路径实际工作中，经常会在公司的服务器中面临网络限制之类的问题，这时候平常的pip指令安装第三方库的简单操作就行不通了。刚好最近就碰到这...

2019-07-27 17:30:22 21253

原创 Pandas常用操作总结

文章目录前言1、DF常用的两种创建方式方式一：通过np来生成方式二：通过字典来生成2、pandas常用的属性及方法3、Pandas Select(数据选择)方法三：混合选择方法四：#通过判断选择部分数据4、Pandas Set_values设置值5、Pandas Nan处理缺失值方法一：剔除缺失值所在的行或列方法二：填充Nan值方法三：显示Nan值的位置，做进一步处理6、Pandas导入导出数据7...

2019-06-13 21:51:48 5163

原创 Mysql面试热身题集总结

前言一直有个想法：把面试需要的知识点全都总结一下，包括数据库，语言，算法，数据结构等知识，形成一个面试总结笔记，这样以后面试的时候只看这些文章回顾下就行了。今天就先总结下Mysql的面试热身题吧，后续会总结其他方面的点。当然，文章同样会不定时更新。热身题1、热身题实践说明：以下五十个语句都按照测试数据进行过测试，最好每次只单独运行一个语句。问题及描述：--1.学生表Student(S...

2019-06-10 22:31:31 1732 4

原创浅谈互联网寒冬与经济形势

作为刚进入职场一年多的小白来说，刚准备好好“生长”，却碰到这股互联网寒冬，也感到鸭梨山大。也许有人认为我在贩卖焦虑，但是现实真的很严峻。接下说下过去一年的经历和所见所闻吧，记录下这“寒冷”的时刻。一位金融圈内的人士在一切没发生之前有预言：业界会接连发生1、暴雷；2、裁员；3、产业链断裂…前两条都应验了，如果第三条发生了，结果会有多恐怖。去年7-8月份，全国互金行业频繁暴雷，刚好有同事就经历了这...

2019-05-31 17:13:03 1230

原创 Python基础总结之常用内置方法总结

文章目录前言1、str1.1、内置方法：1.2、常用的内置方法1.3、String模块的一些方法2、list2.1、内置方法2.2、常用内置方法3、tupple3.1、内置方法3.2、常用内置方法4、dict4.1、内置方法4.2、常用内置方法小礼物几个sort的使用前言由于一些原因，好久没更博客了，接下来会陆续总结出一些包含各方面的基础知识的文章（如数据库、Python、数据挖掘等），算是作...

2019-05-11 15:54:53 998

原创 Python基础常见面试题总结

以下是总结的一些常见的Python基础面试题，帮助大家回顾基础知识，了解面试套路。会一直保持更新状态。PS：加粗为需要注意的点。基础知识题1、深拷贝和浅拷贝的区别是什么？深拷贝是将对象本身复制给另一个对象。这意味着如果对对象的副本进行更改时不会影响原对象。浅拷贝是将对象的引用复制给另一个对象。因此，如果我们在副本中进行更改，则会影响原对象。**2、能否解释一下 *args 和 kwar...

2019-03-08 16:36:40 35198 3

原创智能外呼系统相关资料总结

以下是从零开始搭建智能外呼系统的过程中收集的一些资料，希望对你会有帮助。1、如何从零开始搭建智能外呼系统参考：https://blog.csdn.net/pA2elX78qaJTADH/article/details/813515972、国内外优秀呼叫中心系统简介参考：https://blog.csdn.net/moonpure/article/details/762629383、Fre...

2019-02-26 14:44:34 4105

原创 Freeswitch之ASR（语音识别）总结大全

在做智能外呼的时候要做智能交互的功能，所以就了解了些ASR相关的功能，这里分享下留下的一些资料。根据FS权威指南中Freeswitch使用的第三方模块进行试验，但是效果很不理想，所以如果你想要一个准确率比较好的效果，就需要自己训练声音模型。1、使用Pocket Sphinx进行英文语音识别参考：https://wsonh.com/article/60.html2、PocketSphinx语音...

2019-02-26 09:34:53 11760

原创 Freeswitch总结大全

文章目录1、Freeswitch安装2、Freeswitch中文文档3、Freeswitch的event socket event list的中文简介4、freeswitch之sip协议的注册、呼叫、挂断流程5、Freeswitch之mod_cdr_csv6、一款第三方收费的mod_vad（看介绍挺不错的，有做语音交互的童鞋可以看下）7、FreeSWITCH通过迅时网关连接PSTN8、老李写的Fr...

2019-02-25 15:38:41 19043 1

原创 Pycharm常用高效技巧总结

1、PyCharm如何自动生成函数注释一般在函数def()行下敲三次回车，然后手动添加说明def xxx(self, x1, x2, x3): """ :param x1: :param x2: :param x3: :return: """2、pycharm运行程..

2018-11-25 15:05:36 1127

原创 Mysql常用函数总结

前言：工作中总会和mysql打交道，这里总结下一些常用的函数功能及需求实现。后续会不断更新。1、mysql获取未来、现在、过去的时间：DATE_SUB（）#当前日期select DATE_SUB(curdate(),INTERVAL 0 DAY) ;#或者 NOW()#明天日期select DATE_SUB(curdate(),INTERVAL -1 DAY) ;#昨天日期sel...

2018-11-25 14:36:09 996

原创 Linux执行定时任务（crontab）遇到的坑

前言：之前第一次要在生产环境部署定时任务，无奈的是，博主对定时任务这块还是个小白，但是任务却需要部署一连串的定时任务，前后的定时任务之间还有关联。。。由于数据采集的时间有特殊要求，所以整个流程就挺恶心的更别说部署了，部署之后有想过用Azkaban来串联多个定时任务，但是由于其他原因也没来得及实践，这里记录下期间遇到的坑。刚开始实现第一个crontab定时任务时，就遇到很多问题。这里参考了网上的...

2018-11-23 15:37:09 19519 6

原创玩Azkaban跳过的坑

文章目录一号坑：启动Azkaban报错：User xml file conf/azkaban-users.xml doesn't exist.二号坑：报错：failed SslSocketConnector@0.0.0.0:8443: java.io.FileNotFoundException: /home/hadoop/app/azkaban/azkaban-web-2.5.0/bin/keys...

2018-11-13 15:38:54 8046 10

原创机器学习之LDA主题模型算法

文章目录1、知道LDA的特点和应用方向1.1、特点1.2、应用方向2、知道Beta分布和Dirichlet分布数学含义3、了解共轭先验分布4、知道先验概率和后验概率5、知道参数α值的大小对应的含义6、掌握LDA主题模型的生成过程7、知道超参数α等值的参考值8、LDA总结1、知道LDA的特点和应用方向1.1、特点知道LDA说的降维代表什么含义：将一篇分词后的文章降维为一个主题分布（即如20个特...

2018-10-01 21:31:04 8134

原创玩大数据期间碰到的一些问题总结

问题一：Zookeeper节点数量为什么建议是奇数个？原因是：“Zookeeper集群，当有一半以上的节点数在工作中的时候，集群才对外服务”。怎么理解上面这句话呢，用实验数据说话：实验一：设置节点数量为偶数 4，启动 2 个节点。观察结果：集群不对外服务启动 3 个节点。观察结果：集群开始对外服务实验二：设置节点数量为奇数个 5启动3个节点。观察结果：集群开始对外服务总结：Zo...

2018-09-26 09:25:40 1027

原创使用IntelliJ IDEA碰到的问题总结

文章目录问题一：无法创建Java Class文件问题一：无法创建Java Class文件今天打开项目时，发现右击新建不了java.class文件，于是尝试了以下方法：（1）选择 File——>Project Structure——>Project Settings——>Modules：（2）选择该项目的java存放的文件夹，将其设置为源文件，点击OK,apply即可...

2018-09-25 17:19:38 3187

原创 HA机制的大数据集群的搭建过程

集群规划说明：1、在hadoop2.0中通常由两个NameNode组成，一个处于active状态，另一个处于standby状态。Active NameNode对外提供服务，而Standby NameNode则不对外提供服务，仅同步active namenode的状态，以便能够在它失败时快速进行切换。主备NameNode之间通过一组JournalNode同步元数据信息，一条数据只要成功写入多数...

2018-09-21 17:29:41 661 1

原创机器学习之朴素贝叶斯算法的推理及相关知识总结

1、朴素贝叶斯公式1.1、贝叶斯公式的应用2、了解贝叶斯网络2.1、知道什么是贝叶斯网络贝叶斯网络又称为有向无环图模型，是一种概率图模型，根据概率图的拓扑结构，考察一组随机变量（X1,X2,X3…Xn）及其n组条件概率分布的性质2.2、贝叶斯网络的两种表示形式2.3、掌握全连接的贝叶斯网络的公式p(x1,x2…,xk)=p(xK|x1,…,xK-1)…p(x2|x1)p(x...

2018-09-19 20:38:16 709 2

原创机器学习之EM算法的原理推导及相关知识总结

文章目录1、知道先验概率和后验概率2、了解高斯混合模型GMM3、通过最大似然估计推导EM算法的过程的实例4、EM算法5、知道pLSA模型1、知道先验概率和后验概率先验概率（prior probability）是指根据以往经验和分析得到的概率（理解为自定义概率）。而后验概率是在考虑了一个事实之后的条件概率。2、了解高斯混合模型GMMEM是K-means的推广以下的两个问题都是属于无监督学习...

2018-09-17 20:34:16 1218

中国计算机学会推荐各种国际学术会议和期刊目录

中国计算机学会推荐各种国际学术会议和期刊目录包含主要罗列了国际上计算机相关的各个方向的顶级学术会议和期刊目录（包含A、B、C三个等级）。包含的方向有：计算机体系结构/并行与分布计算/存储系统计算机网络网络与信息安全软件工程/系统软件/程序设计语言数据库/数据挖掘/内容检索计算机科学理论计算机图形学与多媒体人工智能人机交互与普适计算交叉/综合/新兴

2018-06-01

Linux命令大全.chm版下载

Linux离线手册，内部包含汉化的Linux命令格式及详细解释 Linux命令大全(修改版) 文件传输备份压缩文件管理磁盘管理磁盘维护系统设置系统管理文档编辑网络通讯 bye 功能说明：中断FTP连线并结束程序。语　　法：bye 补充说明：在ftp模式下，输入bye即可中断目前的连线作业，并结束ftp的执行。 ftpcount 功能说明：显示目前以FTP登入的用户人数。语　　法：ftpcount 补充说明：执行这项指令可得知目前用FTP登入系统的人数以及FTP登入人数的上限。

2017-10-21