WJWFighting-CSDN博客

转载 Linux top命令的了解以及使用

以root权限运行 top 命令后，会以全屏的方式显示，并且会处在对话的模式操作实例:root登录之后，在命令行中输入：top，回车，即会以全屏的显示模式显示所有内容。整个界面分为三大部分：系统信息栏、内部命令提示栏、进程列表显示栏。第一部分-- 系统信息栏（最上部）：第一行（top）：“08:57:16”为系统当前时刻；“up 27 days”为系统运行了27天；“19：23”为系统启动后到现在的运作时间；“44 users”为当前登录到操作系统的用户，这里

2022-05-25 12:25:51 2106

原创回归模型——树回归（理论方面的知识）

一：模型介绍1.线性回归的薄弱处：1.1. 需要拟合所有的样本点（局部加权线性回归除外）但是当数据拥有众多特征并且特征之间关系十分复杂时，构建全局模型的想法就显得太难了，也略显笨拙。1.2. 生活中很多问题都是非线性的，不可能使用全局线性模型来拟合任何数据2.解决方案：树回归：将数据集切分成很多份易建模的数据，然后利用我们的线性回归技术来建模。如果首次切分后仍然难以拟合线性模型...

2019-07-04 15:08:31 1314

转载【机器学习详解】SVM解回归问题

1.方法分析在样本数据集(xn,tn)(xn,tn)中，tntn不是简单的离散值，而是连续值。如在线性回归中，预测房价的问题。与线性回归类似，目标函数是正则平方误差函数：在SVM回归算法中，目的是训练出超平面y=wTx+by=wTx+b，采用yn=wTxn+byn=wTxn+b作为预测值。为了获得稀疏解，即计算超平面参数w,bw,b不依靠所有样本数据，而是部分数据（如在SVM分类算法中，支持...

2018-10-05 20:30:02 1068

转载通俗理解kaggle比赛大杀器xgboost

1 决策树举个例子，集训营某一期有100多名学员，假定给你一个任务，要你统计男生女生各多少人，当一个一个学员依次上台站到你面前时，你会怎么区分谁是男谁是女呢？很快，你考虑到男生的头发一般很短，女生的头发一般比较长，所以你通过头发的长短将这个班的所有学员分为两拨，长发的为“女”，短发为“男”。相当于你依靠一个指标“头发长短”将整个班的人进行了划分，于是形成了一个简单的决策树，而划分的依据...

2018-09-14 22:24:45 1231

转载支持向量机通俗导论（理解SVM的三层境界）

前言动笔写这个支持向量机(support vector machine)是费了不少劲和困难的，原因很简单，一者这个东西本身就并不好懂，要深入学习和研究下去需花费不少时间和精力，二者这个东西也不好讲清楚，尽管网上已经有朋友写得不错了(见文末参考链接)，但在描述数学公式的时候还是显得不够。得益于同学白石的数学证明，我还是想尝试写一下，希望本文在兼顾通俗易懂的基础上，真真正正能足以成为一篇完...

2018-09-14 16:10:56 483

转载线程，进程，协程详细解释

什么是进程和线程进程是什么呢？直白地讲，进程就是应用程序的启动实例。比如我们运行一个游戏，打开一个软件，就是开启了一个进程。进程拥有代码和打开的文件资源、数据资源、独立的内存空间。线程又是什么呢？线程从属于进程，是程序的实际执行者。一个进程至少包含一个主线程，也可以有更多的子线程。线程拥有自己的栈空间。有人给出了很好的归纳：对操作系统来说，线程是最小的执行单元，...

2018-09-10 14:38:05 11774 1

原创特征选择之包裹式、嵌入式

包裹式主要思想是反复的构建模型（如SVM或者回归模型）然后选择最好的（或者最差的）特征（可以根据系数来选）把选出来的特征选出来，然后在剩余的特征上重复这个过程，直到所有的特征都遍历过这个过程特征被消除的次序就是特征的排序，因此这是一种寻找最优特征子集的贪心算法from sklearn.svm import LinearSVCfrom sklearn.datasets import ...

2018-09-10 11:31:49 3516

原创数据预处理_数据标准化

minmax标准化离差公式：按列看，（x-min）/(max-min)X_train = np.array([[1,-1,2], [2,0,0], [0,1,-1]])min_max_scaler = preprocessing.MinMaxScaler()X_train_minmax = min_max_s...

2018-09-10 11:05:38 798

转载机器不学习：机器学习时代的三大神器:GBDT,XGBOOST和LightGBM

本文主要简要的比较了常用的boosting算法的一些区别，从AdaBoost到LightGBM,包括AdaBoost,GBDT,XGBoost,LightGBM四个模型的简单介绍，一步一步从原理到优化对比。AdaBoost原理原始的AdaBoost算法是在算法开始的时候，为每一个样本赋上一个权重值，初始的时候，大家都是一样重要的。在每一步训练中得到的模型，会使得数据点的估计有对有错，我们就...

2018-09-08 20:16:08 725

转载判别式模型与生成式模型

判别式模型与生成式模型的区别产生式模型(Generative Model)与判别式模型(Discrimitive Model)是分类器常遇到的概念，它们的区别在于：对于输入x，类别标签y：产生式模型估计它们的联合概率分布P(x,y) 判别式模型估计条件概率分布P(y|x) 产生式模型可以根据贝叶斯公式得到判别式模型，但反过来不行。Andrew Ng在NIPS2001年有一篇专门比较...

2018-09-04 21:57:13 209

原创机器学习——性能度量_回归

回归预测误差的绝对值的平均值（mae），回归预测误差的平方的平均值（mse）from sklearn.metrics import mean_absolute_error,mean_squared_error,r2_scoredef test_mean_absolute_error(): y_true=[1,1,1,1,1,2,2,2,0,0] y_pred=[0,0,0...

2018-09-04 20:06:58 478

原创机器学习——性能度量_分类

from sklearn.metrics import accuracy_score,precision_score,recall_score,f1_score\ ,fbeta_score,classification_report,confusion_matrix,precision_recall_curve,roc_auc_score\ ,roc_curvefrom skl...

2018-09-04 19:46:17 405

原创特征选择_过滤特征选择

一：方差选择法：使用方差作为特征评分标准，如果某个特征的取值差异不大，通常认为该特征对区分样本的贡献度不大因此在构造特征过程中去掉方差小于阈值特征from sklearn.datasets import load_irisiris=load_iris()print('iris特征名称\n',iris.feature_names)print('iris特征矩阵\n',iris.da...

2018-09-01 16:17:28 1251 1

转载数据预处理过程

1，去除唯一属性：如id属性，自增列，含唯一值的列，这些属性并不能描述本身的分布规律。 2，处理缺失值： (1)直接使用含有缺失值的特征，如决策树算法。 (2)删除含有缺失值的特征,如果特征列含有大量缺失值，而仅包含极少量的有效值，则删除是最有效的。 (3)缺失值补全，其思想是用最有可能的值来插补缺失值常见的缺失值补全方法：均值插补、同类均值插补、建模预测、高维映射、多重插补、极大似...

2018-09-01 16:07:15 1158

转载机器学习中的范数规则化之（一）L0、L1与L2范数

今天我们聊聊机器学习中出现的非常频繁的问题：过拟合与规则化。我们先简单的来理解下常用的L0、L1、L2和核范数规则化。最后聊下规则化项参数的选择问题。这里因为篇幅比较庞大，为了不吓到大家，我将这个五个部分分成两篇博文。知识有限，以下都是我一些浅显的看法，如果理解存在错误，希望大家不吝指正。谢谢。监督机器学习问题无非就是“minimizeyour error while re...

2018-09-01 10:50:43 240

转载 XGBoost参数调优完全指南（附Python代码）

简介如果你的预测模型表现得有些不尽如人意，那就用XGBoost吧。XGBoost算法现在已经成为很多数据工程师的重要武器。它是一种十分精致的算法，可以处理各种不规则的数据。构造一个使用XGBoost的模型十分简单。但是，提高这个模型的表现就有些困难(至少我觉得十分纠结)。这个算法使用了好几个参数。所以为了提高模型的表现，参数的调整十分必要。在解决实际问题的时候，有些问题是很难回答的——你需要...

2018-08-27 17:24:04 2315

转载通俗、有逻辑的写一篇说下Xgboost的原理，供讨论参考

首先说下决策树决策树是啥？举个例子，有一堆人，我让你分出男女，你依靠头发长短将人群分为两拨，长发的为“女”，短发为“男”，你是不是依靠一个指标“头发长短”将人群进行了划分，你就形成了一个简单的决策树，官方细节版本自行baidu或google 划分的依据是啥？这个时候，你肯定问，为什么用“头发长短”划分啊，我可不可以用“穿的鞋子是否是高跟鞋”，“有没有喉结”等等这些来划...

2018-08-27 14:13:56 233

原创 [main] net.DNS: Unable to determine address of the host-falling back to "localhost" address 解决方案

问题出处：虚拟机Ubuntu在安装Hbase单节点时遇到这问题解决方案：1.先查看下/etc/hostname 下的name(假设这里的内容是master，便于我下面的操作) cat /etc/hostname2.编辑/etc/hosts 的内容，添加xxxx.xxxx.xxxx.xxxx master(xxxx.xxxx.xxxx.xxxx是你虚拟机的ip，可以通过ifco...

2018-08-26 16:01:08 1228

转载 scikit-learn随机森林调参小结

在Bagging与随机森林算法原理小结中，我们对随机森林(Random Forest, 以下简称RF）的原理做了总结。本文就从实践的角度对RF做一个总结。重点讲述scikit-learn中RF的调参注意事项，以及和GBDT调参的异同点。1. scikit-learn随机森林类库概述　　　　在scikit-learn中，RF的分类类是RandomForestClassifier，回归类是Ra...

2018-08-26 15:38:12 612

原创 HBase单节点和伪分布式配置

单节点安装：解压文件并移动到当前用户的hbase-2.0.0目录下 tar –zxvf hbase-2.0.0-beta-1-bin.tar.gz mkdir ~/hbase-2.0.0 mv hbase-2.0.0-beta-1/* ~/hbase-2.0.0 环境配置：Sudo vim /etc/profileexport HBASE_HOME=/home/na...

2018-08-25 14:03:21 360

转载负载均衡(详解)

一、什么是负载均衡？互联网早期，业务流量比较小并且业务逻辑比较简单，单台服务器便可以满足基本的需求；但随着互联网的发展，业务流量越来越大并且业务逻辑也越来越复杂，单台机器的性能问题以及单点问题凸显了出来，因此需要多台机器来进行性能的水平扩展以及避免单点故障。但是要如何将不同的用户的流量分发到不同的服务器上面呢？早期的方法是使用DNS做负载，通过给客户端解析不同的IP地址，让客户端...

2018-08-25 13:58:27 1277

转载深入浅出--梯度下降法及其实现

本文将从一个下山的场景开始，先提出梯度下降算法的基本思想，进而从数学上解释梯度下降算法的原理，最后实现一个简单的梯度下降算法的实例！梯度下降的场景假设梯度下降法的基本思想可以类比为一个下山的过程。假设这样一个场景：一个人被困在山上，需要从山上下来(i.e. 找到山的最低点，也就是山谷)。但此时山上的浓雾很大，导致可视度很低。因此，下山的路径就无法确定，他必须利用自己周围的信息去找到下山的...

2018-08-24 15:05:48 230

转载 raid技术与hdfs

自从1988年伯克利大学发明RAID(磁盘阵列)技术以来，RAID一直是存储领域的核心，肩负着保护数据的重任。但是随着磁盘容量的不断增大，RAID技术遇到了前所未有的新问题。最大的问题在于在数据重构时间过长，延长了系统degraded时间，增加了多个磁盘故障的概率，降低了数据可靠性。并且在RAID数据重构过程中，RAID自身的Rebuild IO对应用IO造成了影响，直接导致应用IO的perfor...

2018-08-22 10:19:29 332

转载应用服务器性能优化总结

应用服务器就是处理网站业务的服务器，网站的业务代码都部署在这里，是网站开发最复杂，变化最多的地方，优化手段主要有缓存、集群、异步等。一、分布式缓存在整个网站应用中，缓存几乎无处不在，既存在于浏览器也存在于应用服务器和数据库服务器；既可以对数据缓存，也可以对文件缓存，还可以对页面片段缓存。合理使用缓存，对网站性能优化意义重大。网站性能优化第一定律：优先考虑使用缓存。1、缓存的基本原理...

2018-08-22 10:16:46 250

原创 Python机器学习算法实践——梯度上升算法

一：理论部分给定一个样本集，每个样本点有两个维度值（X1，X2）和一个类别值，类别只有两类，我们以0和1代表。数据如下所示：样本 X1 X2 类别 1 -1.4 4.7 1 2 -2.5 ...

2018-08-20 14:44:41 1750

原创八大排序算法——快速排序

package com.wjw;/** * * @author wjw *快速排序的思想：通过一趟排序将要排序的数据分割成独立的两部分，其中一部分的所有数据都比另外一部分的所有数据都要小(划分过程)， *然后再按此方法对这两部分数据分别进行快速排序(快速排序过程)，整个排序过程可以递归进行，以此达到整个数据变成有序序列。 *快速排序是一种不稳定的排序算法。 *Title: 交换...

2018-08-18 21:22:47 148

原创 Python机器学习算法实践——二分k-均值算法

二分k-均值算法步骤：首先将所有点作为一个属，然后将该簇-分为二，之后选择其中-个簇进续进行划分，选择哪一个簇进行划取决于对其划分是否可以最大程度降低SSE的值，上述基于SSE的别分过程不断重复，直到得到用户指定的属数目为止，将所有点看成一个簇当簇数目小于k时对于每一个簇: 计算总误差在给定的簇上面进行K-均值聚类(k=2)计...

2018-08-16 17:04:08 1332 1

转载树与堆（基本概念及二叉树、二叉堆的python实现）

树1.基本概念什么是树？树是一种数据结构，可以表示层次关系。形状像一棵树。最上面；树根中间：树枝最下：树叶树的定义它是由n（n>=1）个有限节点组成一个具有层次关系的集合。把它叫做“树”是因为它看起来像一棵倒挂的树，也就是说它是根朝上，而叶朝下的。它具有以下的特点：每个节点有零个或多个子节点没有父节点的节点称为根节点每...

2018-08-15 17:21:57 880

原创 Python机器学习算法实践_自定义实现kmeans

k-means算法步骤：1.随机选取k个质心（k值取决于你想聚成几类） 2.计算样本到质心的距离，距离质心距离近的归为一类，分为k类 3.求出分类后的每类的新质心 4.判断新旧质心是否相同，如果相同就代表已经聚类成功，如果没有就循环2-3直到相同 Python实现from numpy import *def loadDataSet(fileName): dataM...

2018-08-15 17:16:31 675

转载 Python机器学习算法实践——k均值聚类（k-means）

一.k-means算法人以类聚，物以群分，k-means聚类算法就是体现。数学公式不要，直接用白话描述的步骤就是：1.随机选取k个质心（k值取决于你想聚成几类） 2.计算样本到质心的距离，距离质心距离近的归为一类，分为k类 3.求出分类后的每类的新质心 4.判断新旧质心是否相同，如果相同就代表已经聚类成功，如果没有就循环2-3直到相同用程序的语言描述就是：1.输入样本 2.随...

2018-08-15 15:26:02 728

原创无监督学习——k-means_手写字体识别（调用api）

from numpy import *import pandas as pdfrom sklearn.cross_validation import train_test_splitimport numpy as np#读取数据集digits_train=pd.read_csv('dataset/optdigits.tra',header=None)digits_test=pd.r...

2018-08-15 14:31:42 2127

原创（hive） Execution Error, return code -101 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask解决方案

解决bug思路：出现这个问题说明你的mapreduce.input.fileinputformat.split.maxsize设置的太小了解决方案：hive (default)> set mapreduce.input.fileinputformat.split.maxsize=。。。。;设置最大切片值为。。。个字节这个数取决于你的文件大小，假设下：你的文件50M，你就把set ...

2018-08-14 17:18:53 20195 2

转载二叉树遍历（图解）

二叉树的顺序存储结构就是用一维数组存储二叉树中的节点，并且节点的存储位置，也就是数组的下标要能体现节点之间的逻辑关系。—–>一般只用于完全二叉树链式存储—–>二叉链表定义： lchild | data | rchild（两个指针域，一个数据域）typedef struct Node { ElemType data; struct Node *lchild...

2018-08-14 16:55:09 40339 2

原创 hive 学习笔记（二）分桶操作

create table dept01 (deptno int , dname string,loc string)row format delimited fields terminated by '\t';load data local inpath '/home/hadoop/data/dept.txt' overwrite into table default.dept01;上传文...

2018-08-14 16:07:07 295

原创 hive 建表分区语句（仅供参考）

create table test_01( name string, friends array<string>, children map<string,int>, address struct<street:string,city:string>)...

2018-08-14 16:03:15 6227

原创数据倾斜以及本地模式的介绍

一：数据倾斜Map数 1）通常情况下，作业会通过input的目录产生一个或者多个map任务。主要的决定因素有：input的文件总个数，input的文件大小，集群设置的文件块大小。 2）是不是map数越多越好？答案是否定的。如果一个任务有很多小文件（远远小于块大小128m），则每个小文件也会被当做...

2018-08-14 14:36:50 3804

转载最大似然，贝叶斯方法与朴素贝叶斯分类

1.贝叶斯公式　　贝叶斯公式作为概率论中的基础，大家都见过，极为简单。但是学习时候无非用于一些红球黑球，男生女生的估计问题，学起来也是兴趣寥寥。我也不曾想它用处之大，可谓大道至简。　　如果对于概率还没有基础或者兴趣的人，先看看刘未鹏大牛的入门博客：《数学之美番外篇：平凡而又神奇的贝叶斯方法》。文章中对于贝叶斯方法的描述和逻辑上的讲解非常清楚，所以这里也就不赘述了，没看过的还请先移步看看这篇...

2018-08-12 21:58:49 716

转载数学之美番外篇：平凡而又神奇的贝叶斯方法

概率论只不过是把常识用数学公式表达了出来。——拉普拉斯目录0. 前言 1. 历史 1.1 一个例子：自然语言的二义性 1.2 贝叶斯公式 2. 拼写纠正 3. 模型比较与贝叶斯奥卡姆剃刀 3.1 再访拼写纠正 3.2 模型比较理论（Model Comparasion）与贝叶斯奥卡姆剃刀（Bayesian Occam’s Razor） ...

2018-08-12 21:56:57 180

转载深入理解朴素贝叶斯（Naive Bayes）

朴素贝叶斯是经典的机器学习算法之一，也是为数不多的基于概率论的分类算法。朴素贝叶斯原理简单，也很容易实现，多用于文本分类，比如垃圾邮件过滤。该算法虽然简单，但是由于笔者不常用，总是看过即忘，这是写这篇博文的初衷。当然，更大的动力来在于跟大家交流，有论述不妥的地方欢迎指正。1.算法思想——基于概率的预测逻辑回归通过拟合曲线（或者学习超平面）实现分类，决策树通过寻找最佳划分特征进而学习样本路径...

2018-08-12 21:47:51 276

原创 k-近邻算法的总结

该函数的功能是使用k近邻算法将每组数据划分到某个类中，其伪代码如下:对未知类别属性的数据集中的每个点依次执行以下操作:(1)计算已知类别数据集中的点与当前点之间的距离;(2)按照距离递增次序排序;(3)选取与当前点距离最小的k个点;(4)确定前k个点所在类别的出现频率;(5)返回前k个点出现频率最高的类别作为当前点的预测分类。Python函数classi fy0 ()如...

2018-08-12 11:46:25 649

机器人算法的Python示例代码

扩展卡尔曼滤波定位无迹卡尔曼滤波定位粒子过滤器本地化直方图过滤器本地化映射高斯栅格地图光线投射栅格贴图猛击迭代最近点（ICP）匹配 EKF大满贯 FastSLAM 1.0 FastSLAM 2.0 基于图形的SLAM 路径规划动态窗口方法基于网格的搜索 Dijkstra算法 A*算法势场算法模型预测轨迹发生器路径优化示例查找表生成示例状态晶格规划均匀极性采样偏置极性采样车道采样概率路线图（PRM）规划 Voronoi路线图规划快速探索随机树（RRT）基本RRT RRT公司* 带dubins路径的RRT RRT*带dubins路径 RRT*带芦苇羊径闭环RRT* 三次样条规划 B样条规划贝塞尔路径规划五次多项式规划 Dubins路径规划芦苇棚规划 Frenet框架中的最优轨迹路径跟踪纯追踪跟踪 Stanley控制后轮反馈控制线性-二次调节器（LQR）转向控制线性-二次调节器（LQR）速度和转向

2022-05-25

Tcp建立连接的过程啊

详细的介绍了Tcp网络协议的三次握手和四次挥手的过程。

2018-08-09

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人