SkullSky-CSDN博客

原创分布式处理之 hdfs基本操作

最近在做平台的分布式升级，需要频繁的访问hdfs上的数据，记录一下常用到的hdfs基本操作。1. 什么是hdfshdfs 全称即 Hadoop Distributed File System。从名字可以看出它是基于Hadoop的分布式文件系统。hadoop中有3个核心组件：分布式文件系统 HDFS：实现将文件分布式存储在很多的服务器上分布式运算编程框架 MAPREDUCE：实现在很多机器上分布式并行运算分布式资源调度平台 YARN：帮用户调度大量的mapreduce程序，并合理分配运算资源（

2021-03-02 20:28:10 400

原创聚类之 DBSCAN

文章目录DBSCAN 聚类基本原理DBSCAN 聚类流程简述实例演示DBSCAN 聚类简易应用示例总结拓展阅读前面介绍的 KMeans 和 MeanShift 算法对于球状类的数据，聚类效果较好。对于非球状数据，如环状，就无能为力了。这次，给大家介绍一个同KMeans一样十分简单的基于密度的聚类方法：DBSCAN 聚类DBSCAN 聚类基本原理DBSCAN 聚类的核心思想是：从某个核心点出发，不断向密度可达的区域扩张，从而得到一个包含核心点和边界点的最大化区域，区域中任意两点密度相连。DBSCAN

2021-02-09 10:37:59 672

原创聚类之 MeanShift

上篇博客介绍了K-Means聚类，这次给大家推荐一个更厉害的聚类算法：Meanshift，均值漂移。Meanshift 聚类原理简述相比 K-Means 聚类，Meanshift 最大的优势是不需要人为指定分成几类。该算法会根据分布密度自动将数据归到适合的类中。Meanshift 聚类算法的大致思想就是 “哪里人多哪里跑” ：首先从未被标记的数据中随机选取一个点作为当前大佬（质心）；以当前大佬为圆心，半径 RRR 画个圆，圆内的点记做集合 MMM，里面为该位大佬的小弟；由于是随机选择的大佬，难

2021-02-01 21:34:18 3804 2

原创机器学习可解释性(二) 之可解释模型

文章目录什么是可解释模型线性回归逻辑回归树模型什么是可解释模型线性回归逻辑回归树模型

2021-01-24 20:46:30 3315 3

原创机器学习可解释性(一)

文章目录whatKaggle Notebook GM 排名第二的 Dan Becker 在他的推送What 70% of Data Science Learners Do Wrong 中特意提到了一点：Learn how to interpret model output. For example, you need to understand measures of model accuracy to know if you can trust a model. Learn machine lear

2021-01-09 12:07:44 3279 5

原创 Pandas 初级操作指南

文章目录数据结构导入与导出查看切片操作统计分析操作首先，导入pandas相关的包import pandas as pdimport numpy as np数据结构pandas的数据结构包括 pd.DataFrame 和 pd.Series。下图是一个典型的DataFrame结构，其主要由三部分组成：列名columns、行索引index、值value其支持的数据类型包括：字符型（str）、整型（int）、浮点型（float）、事件类型（datetime64）、布尔型（bool）可以

2020-12-23 22:09:13 230

原创单目标分类到多目标分类之逻辑回归多目标分类推广

文章目录1. 基本思路2. 概率值转换3. loss定义4. 总结前面有介绍逻辑回归模型是如何从二分类推广到多分类，参见二分类到多分类之逻辑回归多分类推广。这次谈一谈单目标分类到多目标分类。首先，解释一下二者的区别。单目标分类是指每个样本只能属于一个类别，比如训练猫狗分类器时，一张图片中只能包含猫或者狗；多目标则一个样本中可以同时包含多个类别，如一张图片中可以同时包含一只猫和狗。注意，二分类和多分类都属于单目标分类的范畴。1. 基本思路首先，还是回顾一下逻辑回归模型的基本思路：对于单

2020-11-14 18:55:43 1547

原创最优化问题(二) 之拉格朗日乘子法和KKT

约束优化问题(拉格朗日乘子法求解)

2020-11-14 11:06:41 2655 1

原创【图像处理】海森矩阵

文章目录导论海森矩阵的定义海森矩阵的意义泰勒展开及海森矩阵导论Frangi滤波[1]^{[1]}[1]是Frangi在1998年，运算Hessian矩阵的特征值构造出了一种滤波器来增强血管结构。Hessian矩阵实际是一个二阶偏导矩阵，矩阵的特征向量在图像边缘检测方面有着重要的作用。下面，我们先看一下什么是hessian矩阵。海森矩阵的定义一个二元Hessian矩阵定义为：H=[IxxIxyIxyIyy]H=\begin{bmatrix}{I_{xx}}&{I_{xy}}\\{I_{

2020-10-28 20:22:29 4016 1

原创最优化问题(三) 之外点法（罚函数法）

基本概念：

2020-10-19 21:04:51 21784 4

原创最优化问题(一)

优化问题共有3个层次。最简单的是无约束优化，中间的是带等式约束的优化，最难的是带不等式约束和等式约束的优化。

2020-10-03 17:47:05 3116 1

原创 Loss进化史

Loss进化史

2020-09-21 22:48:03 416

原创二分类到多分类之逻辑回归多分类推广

二分类推广至多分类有众多方法：如OVR、OVO等算法。这些算法思想都比较直观，容易理解，但性能上相比二分类高了不少。那经典的二分类算法是怎么推广到多分类的呢？这里以逻辑回归算法为例，介绍其二分类推广形式。1. 基本思路首先，回顾一下二分类逻辑回归模型的基本思路，详情参见【】：根据。。得到样本属于正类的得分 score;通过 logistic 函数将得分映射为概率值 probability ;最后计算交叉熵作为 loss，反向梯度传播求解最优参数 ω\omegaω。。2. 概率值转换对于二

2020-09-08 21:45:13 1768 1

原创特征工程之特征筛选

1. 什么是特征选择从现有的m个特征中选出n个特征(n<=m)，降低特征维度减少计算量的同时，使模型效果达到最优。2. 为什么要做特征选择在实际业务中，用于模型中的特征维度往往很高，几万维。如一些CTR预估问题中，特征维度高达上亿维，维度过高会增大模型计算复杂度。但实际情况是，并不是每个特征对模型的预测都是有效果的，所以需要去除一些不必要的特征，从而降低模型计算的复杂度。3. 特征选择的基本原则波动性：指特征取值的分布情况，用方差来衡量。相关性：指特征和目标结果的相关性大小，常用皮尔逊

2020-07-20 20:59:21 1347

原创模型超参选择之交叉验证

什么是交叉验证基本思想就是将原始数据（dataset）进行分组，一部分做为训练集来训练模型，另一部分做为测试集来评价模型。为什么要做交叉验证交叉验证用于评估模型的预测性能，尤其是训练好的模型在新数据上的表现，可以在一定程度上减小过拟合。还可以从有限的数据中获取尽可能多的有效信息。如何做交叉验证一般流程如下：CV：一般用于超参选择和模型选择...

2020-07-20 20:29:10 2441

原创求最优值，梯度下降算法 or 偏导等于0 ?

1. 概述不论是在做数据的拟合还是在机器学习中计算最小的代价函数，都需要求目标函数的最优值（最大或最小值），在这其中，使用的方法都是梯度下降算法（或上升）进行多次迭代直到收敛（或接近收敛），这种方法确实是能够达到我们的目的；但是这个时候我们就会思考，既然是求最优值，我们为什么不能直接对目标函数求导，让其导数等于零，然后得出结果呢？反而要用似乎更加复杂的梯度下降算法呢？这个问题也一直困扰着博主，因此查找了很多资料来解释这个问题，同时在这个过程中还发现了很多有趣的问题，下面来一一呈现。...

2020-07-20 20:05:11 2790

原创信用评分模型详解（下）之信用评分系统搭建

信用评分问题中一般使用逻辑回归作为主要的模型。过程主要包括变量分箱、变量的WOE（证据权重）变换和变量选择（IV值）、逻辑回归估算。一个完整的评分卡流程主要包括以下几个步骤：数据准备数据探索性分析数据预处理，包括缺失值、异常值、数据切分特征分箱：特征筛选：IV值单变量分析(IV)和多变量分析(两两相关性）模型训练评分卡构建评分预测1. 数据准备数据源主要包含行内行外两...

2020-06-01 20:52:31 3844

原创不均衡分类问题之 class weight & sample weight

分类问题中，当不同类别的样本量差异很大时，很容易影响分类结果。因此，需要进行校正。sklearn的做法是加权，加权就要涉及到class_weight和sample_weight，当不设置class_weight参数时，默认值是所有类别的权值为1。类型权重 class_weight字典类型，将类索引映射到权重值。对训练集里的每个类别加权，作用于损失函数（仅在训练过程中）。从而使模型更加关注样本数量少的类别。如果某类别的样本数多，那么它的权重就低，反之则权重就高.应用场景：第一种是误分类的代价很高。比

2020-05-25 20:52:35 7754 5

原创连续特征离散化的必要性

在什么情况下将连续的特征离散化之后可以获得更好的效果？工业界中很少直接将连续值作为逻辑回归模型的特征输入，而是将连续特征离散化为一系列0、1特征，这样做的优点可以归纳为以下几点：1. 特征鲁棒性更强离散化后的特征对异常值有很强的鲁棒性。比如对于一个连续特征：年龄，如果直接将其作为特征，一个异常数据“年龄300岁”会给模型造成很大的干扰；如果离散为年龄>30为1，否则0。离散化后年龄300岁也会被归为0，如果训练数据中没有出现特征"年龄-300岁"，那么在LR模型中，其权重对应于0，所以，即使

2020-05-21 20:59:08 476

原创信用评分模型详解（上）之评分卡模型

介绍完分箱算法后，就不得不介绍一下评分卡模型了。评分卡模型由于在业务层面具有良好的解释性，对数据挖掘方面（如风控）仍深受欢迎。目前，主流的评分卡模型仍以逻辑回归模型为主要模型。假设客户违约的概率为ppp，则正常的概率为1−p1-p1−p...

2020-05-21 20:41:21 3380 2

原创特征离散化（五）之评分卡最优分箱

特征离散化之卡方分箱（三）1. 卡方分箱之评分卡最优分箱

2020-05-18 19:50:00 3710 3

原创特征离散化（四）之 bestKS分箱

特征离散化（四）之 bestKS分箱

2020-04-27 21:38:48 1897 3

原创特征离散化（三）之最小熵分箱

特征离散化之最小熵分箱最小熵分箱在很多关于分箱的博客中都有提及，但很少有文章着重介绍该算法。因此，单独写篇博客记录一下对该算法的理解。在介绍该算法之前，需要先了解一下决策树算法1. 决策树...

2020-04-27 20:54:22 4673 7

原创特征离散化（二）之 Chi2分箱

特征离散化之卡方分箱（二）离散特征在数据挖掘的过程中具有重要作用，因此特征离散化是构建特征工程的一个很常见、也很重要的环节。最近做项目需要用到卡方分箱实现特征的离散化，发现这么经典的功能python竟然没有相关的封装库。找了许多资料，老感觉差了一点，看的迷迷糊糊的。最后实在不得已，只能翻出原论文 Chi2: Feature Selection and Discretization o...

2020-04-14 18:11:42 2266 1

原创特征离散化（一）之卡方分箱

特征离散化之卡方分箱离散特征在数据挖掘的过程中具有重要作用，因此特征离散化是构建特征工程的一个很常见、也很重要的环节。最近做项目需要用到卡方分箱实现特征的离散化，发现这么经典的功能python竟然没有相关的封装库。找了许多资料，老感觉差了一点，看的迷迷糊糊的。最后实在不得已，只能翻出原论文 Chi2: Feature Selection and Discretization of N...

2019-09-16 21:13:09 9979 3

原创 Sublime 配置 Markdown环境

Sublime 配置 Markdown环境Sublime 配置 Markdown环境Sublime Text3 下 Markdown 实时预览隐藏的坑1. 左侧空格2. 公式渲染有问题Sublime 配置 Markdown环境Markdown作为一种标记语言，其好处就不用我再啰嗦啦。那我们就直接进入正题好了O(∩_∩)O!Sublime Text3 下 Markdown 实时预览这个教程...

2018-10-13 11:01:43 5158 1

原创内排序算法-堆排序

堆排序，顾名思义，就是把待排序的数据按照一定的规则放到一个堆里面去。不过，这里这个堆不同于其他堆，这里的堆是一颗完全二叉树。那什么是完全二叉树呢，就是叶节点只能在最后一层或者倒数第二层，并且最后一层的结点都集中在该层最左边的若干位置的二叉树。堆排序的基本思想就是构造一颗完全二叉树，使得子节点的值均不大于（不小于）父节点，不大于对应大根堆，不小于对于小根堆。至于左右子节点的大小关系无所谓的啦。是

2018-02-07 20:45:56 383

原创 php脚本命令行运行正确,浏览器运行错误

在window环境下搭建php+mysql环境（xampp集成安装），搭建完毕后尝试在php中连接mysql数据库。在调用mysql_connect()函数时，在浏览器中运行一直报错显示该函数未定义，但用命令行调用则正确运行。 php脚本如下（数据库为自己定义的）：<?php// phpinfo();$link=mysql_connect("localhost","root","") or

2017-05-10 20:19:10 3534

原创图像处理之统计数组中连续0/1的个数

有时，我们需要统计数组中连续的0/1的个数，或者矩阵中每一行或列中连续0/1的个数，传统方法需要使用两层循环来实现，对于matlab而言太不高效了，有木有又简便又高效的方法呢？下面以统计连续0的个数为例（统计连续1的个数只需取反操作即可），对于如下数组：我们要统计其中连续0出现的次数，很容易观察出是1，1，1，3。那我们如何不通过循环快速获得结果呢？不妨看看如下提示不难发现，累加数组（cumsu

2017-04-27 16:53:17 4521 1

原创 JS DOM之table

表格的结构：tHead : 表格头tBodies : 表格头tFoot : 表格尾rows : 行cells : 列示例代码： window.onload = function(){ data = [ {id:1,username:'leo'

2017-03-13 14:56:55 706

原创 JS DOM之类名修改

增加类名：（addClass）function addClass(obj, className){ // 如果原来没有class if ( obj.className == '' ) { obj.className = className; } else { // 如果原来有class var arrClassName = obj.className.

2017-03-13 14:50:23 4617

原创 JS DOM之getElementsByClassName

实现代码：function getElementsByClassName(parent,tagName,className){ var aEls = parent.getElementsByTagName(tagName); var arr = []; for(var i=0; i<aEls.length; i++){ var aClassName = aEls[i

2017-03-13 14:42:06 1176

原创 JS DOM之元素操作

createElement，appendChild，insertBefore，removeChild，replaceChild

2017-03-13 14:31:52 456

原创 JS DOM之getPos

获取当前标签到html文档上部和左部的绝对距离：（具体缘由参见上两篇： JS DOM之父节点 JS DOM之位置尺寸）function getPos(obj) { //获取当前元素到页面的距离 var pos = {left:0, top:0}; while (obj) { pos.left += obj.offsetLeft; p

2017-03-13 14:24:03 1730

原创 JS DOM之父节点

元素.parentNode : 只读属性当前节点的父级节点。window.onload = function() { var aA = document.getElementsByTagName('a'); for (var i=0; i<aA.length; i++) { aA[i].onclick = function() { /* 元素.par

2017-03-13 13:22:10 797

原创 JS DOM之位置尺寸

示例代码：div {padding: 40px 50px;}#div1 {background: red;}#div2 {background: green; /* position: relative; */}#div3 {background: orange; /* position: relative; */}window.onload = function() {

2017-03-13 12:57:45 526

原创 CSS之未知高度img垂直居中

效果如下：测试代码如下：（能够水平居中，通过text-align:center实现）.box{ width:800px;height:600px;border:2px solid #000; text-align:center;} class="box"> src="bigptr.jpg" />方案一：在img标签后边添加一个span标签，设置其显

2017-03-13 12:35:57 13426 1

原创 HTML之ul背景色

问题描述：在使用ul制作下拉菜单时，效果如下，要给菜单栏（即ul）加上背景色，发现background-color没起作用。查看ul元素盒子大小，发现盒子高度为0。HTML：<div id="menuList"> <ul> <li>学院概况</li> <li>学科建设</li> <li>教师园地</li>

2017-01-20 21:21:59 15961 1

原创 HTML实例之下拉菜单

效果如下：当鼠标位于学院概况/学科建设/教师园地/学生园地中的任意一个时，弹出相应的下拉菜单。基本思路：使用列表ul和li实现总体布局，通过li嵌套ul实现下拉菜单。html代码如下：<div id="menuList"> <ul> <li> <a>学院概况</a> <ul>

2017-01-20 17:08:43 8747 1

原创 HTML之多个IMG标签的间距

HTML之多个IMG标签的间距问题描述：多个IMG标签之间有间距，且IMG后跟的font标签也有间距，如下代码为例：<div id="lay1"> <img src="../《JavaScript动态网页设计经典实例教程》共给网上下载的代码/第7章动态层/jian.gif"> <img src="../《JavaScript动态网页设计经典实例教程》共给网上下载的代码/

2017-01-09 16:38:27 2809

空空如也

空空如也