- 博客(18)
- 收藏
- 关注
原创 将shell命令结果直接输出到HDFS上
直接将shell命令结果输出到HDFSecho "hehe" | hdfs dfs -put - /user/root/output.txtHadoop shell命令大全:https://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-common/FileSystemShell.html
2021-08-13 16:07:01 496
原创 朴素贝叶斯原理详解(Navie Bayes)
朴素贝叶斯原理详解1.知识准备2.贝叶斯定理3.贝叶斯定理在分类中的应用3.1条件独立3.2特征取离散值的条件概率3.3特征取连续值的条件概率高斯贝叶斯分类器:多项式贝叶斯分类器:伯努利贝叶斯分类器:4.条件概率的m估计5.逻辑斯特回归与朴素贝叶斯的区别6.API1.知识准备1.贝叶斯分类器要解决的问题:已知某样本中各个属性的取值, 求其属于某label的概率2.先验概率与后验概率先验概率: 根据以往的经验或数据分析得到的概率P(X)后验概率: 根据先验概率得到的是后验概率P(Y|X)3.朴素
2020-10-28 21:44:10 10630 1
原创 Redis跳跃表详解
1.前言 自己学跳跃表是因为当初听人说想要找一份高薪工作, Redis跳跃表是要知道的. 当时学的时候也是网上的文章反复看, 花了几个晚上才彻底弄明白, 所以在此记录一下吧, 为了下次面试好回顾2.跳跃表基本概念准备跳跃表是有序集合(zset)的底层实现之一。2.1跳跃表的数据结构跳跃表zskiplist定义在server.h中header; 跳跃表的表头节点tail: 指向跳跃表的表尾节点level: 记录目前跳跃表内, 层数最大的那个节点的层数(表头节点的层数不计算在内. 因为它的层数
2020-10-28 17:55:02 959
原创 Redis面试题相关知识整理
Redis面试题相关知识整理1.Redis的应用场景2.Redis的特点3.Redis对各种数据类型的操作4.Redis的持久化机制5.Redis的缓存穿透/缓存击穿/缓存雪崩问题6.Redis的主从复制架构, sentinel哨兵模式7.memcache与redis的区别8.单线程的redis为什么这么快9.Redis的过期策略以及内存淘汰机制10.Redis为什么是单线程的11.有没有尝试进行多机redis的部署? 如何保证数据一致的?12.对于大量的请求怎么处理13.Redis常见性能问题和解决方案1
2020-10-27 19:30:50 562
原创 HBase的布隆过滤器详解
HBase的布隆过滤器详解1.布隆过滤器的简单介绍2.布隆过滤器的原理分析2.1 哈希表存在的问题2.2 布隆过滤器的原理2.2.1 原理详解2.2.2 布隆过滤器失误率的调节2.2.3 布隆过滤器的完整体3.HBase是如何使用布隆过滤器的3.1 HBase的基本回顾3.2 HBase的块索引机制及存在的问题3.3 HBase布隆过滤器的作用4.大战后的悠闲时光4.1 布隆过滤器的存储在哪?4.2 如何开启布隆过滤器4.3 采用布隆过滤器后, HBase如何get数据4.4 采用ROW还是ROWCOl布隆
2020-08-12 16:13:23 2713
原创 谈谈spark.sql.shuffle.partitions和 spark.default.parallelism 的区别及spark并行度的理解
谈谈spark.sql.shuffle.partitions和 spark.default.parallelism 的区别及spark并行度的理解spark.sql.shuffle.partitions和 spark.default.parallelism 的区别spark并行度的理解如何设置spark.sql.shuffle.partitions和spark.default.parallelism的值spark.sql.shuffle.partitions和 spark.default.parallel
2020-08-11 20:18:42 21190 6
原创 磁盘的顺序读写与随机读写详解
磁盘的顺序读写与随机读写详解1.磁盘的基本概念2.磁盘的读写方式3.磁盘读取时间4.顺序读写与随机读写5 参考链接1.磁盘的基本概念 盘片与盘面 : 一块硬盘一般有多块盘片,盘片分为上下两面,其中有效面称为盘面(一般上下都有效),盘片数一般与磁头数相等.也就是说:磁头数 = 盘面数 = 盘片数*2 磁头 : 磁头切换磁道读写数据时通过机械设备实现的,速度较慢;而磁头切换盘面读写数据是通过电子设备实现的,速度较快,因此磁头一般是先读写完柱面后才开始寻道的(不用切换磁道),这样磁盘读写效率更快. 磁道
2020-07-18 19:52:53 12435 1
原创 线性代数相关知识点回顾
线性代数相关知识点回顾矩阵的转置矩阵的逆特征值与特征向量矩阵的秩正交阵相似矩阵与相似对角化特征子空间矩阵的转置(AB)T=BTAT矩阵的逆AB=BA=E,则B=A-1若矩阵A可逆,则|A|不等于0只有方阵才有伴随矩阵特征值与特征向量定义:特征值的性质:特征向量的性质: 第二条:注意线性无关与两两正交的区别矩阵的秩定义:性质:n阶可逆方阵,秩=n可逆矩阵又称为满秩矩阵矩阵的秩等于它行(列)向量组的秩正交阵正交阵一定是满秩矩阵相似矩阵与相似对角化相似矩阵的
2020-05-21 08:34:23 1001
原创 梯度与梯度下降法详解
梯度与梯度下降法1 前言2 导数3 导数与偏导数4 导数与方向导数5导数与梯度6 导数与向量7 梯度下降法8 梯度下降法与机器学习9 梯度下降法的缺点10 补充:向量函数求导的问题10.1对标量求导10.2对向量求导1 前言 机器学习中的大部分问题都是优化的问题,而绝大部分问题都可以使用梯度下降法处理,那么搞懂什么是梯度,什么是梯度下降法就非常重要了,这是基础中的基础,也是必须掌握的概念.2 导数一张图读懂导数与微分导数定义如下:反映的是函数y=f(x)在某一点沿着x轴的正方向的变化率/变化
2020-05-19 19:36:20 1327
原创 AdBoost算法详解
AdBoost算法详解1 算法简介算法引入: 对于Boosting算法,存在两个问题 在每一轮中如何调整训练集,使训练的弱分类器得以进行 如何将各个弱分类器联合起来形成强分类器 Boosting框架中的代表算法是AdaBoost算法.1 算法简介属于集成学习中的串行学习方法.AdaBoost自适应提升算法和Boosting考虑的点一样AdaBoost自适应在于:’’关注”被错分的样本,”器重”性能好的弱分类器 不同的训练集–>调整样本的权重 “关注”—>增加错分样本权重
2020-05-14 16:56:48 1025
原创 快速了解Bagging算法
快速了解Bagging算法Boostrap sampling 自助采样Bagging算法Bagging性能Boostrap sampling 自助采样 之前已经讲过模型的评估方法中有留一法(将数据集划分为两个互不相交的集合,一个做测试集,一个做训练集)和交叉验证方法(将数据分成k个大小相似互不相交的子集,每次使用k-1个子集做训练集,剩下的一个子集做测试集,以此循环进行k次的训练和测试,最后返回k次测试结果的均值。)。但是上述两种方法中都保留了一部分样本用于测试,所以实际模型所使用的训练集比源数据都要小
2020-05-11 22:16:29 912 1
原创 聚类分析与相关算法(Kmeans等)详解
聚类分析与相关算法详解 聚类是一种无监督学习技术(包括聚类,属性约减的PCA),可以在事先不知道正确结果(即无类标签,或预测输出值)的情况下,发现数据本身蕴含的结构等信息 聚类的本质是一种分组方法,分组的标准是组内的样本之间相似度尽可能高,而组间样本之间的相似度尽可能低 可将聚类理解为:对对象集合分组的过程...
2020-05-06 17:37:42 5142
原创 偏差(Bias)与方差(Variance)详解
1 问题背景 NFL(No Free Lunch Theorem)告诉我们选择算法应当与具体问题相匹配,通常我们看一个算法的好坏就是看其泛化性能,但是对于一个算法为什么好为什么坏,我们缺乏一下认识,”Bias-Variance-Decomposition”就是从偏差,方差的角度来解释一个算法的泛化性能2 一点点数学期望:体现了随机变量取值的平均水平方差:随机变量取值在其平均值附近的离散程度...
2020-05-02 10:05:20 4452
原创 schema约束文档与xml文件详解
schema约束文档与xml文件详解1.前言2.schema约束文档(.xsd文件)2.1 targetNameSpace2.2官方文档与自定义文档的关系2.3 声明名称空间2.4 schema文档中的全局成分与非全局成分2.5 完整的自定义schema文档3.xml文件3.1 声明名称空间3.2 xml中名称空间使用的范畴3.3 schemaLocation3.4 noNamespaceSche...
2020-04-25 12:08:59 1540
原创 详细的KNN算法原理步骤
KNN算法原理详解KNN算法1.1 解决监督学习中分类问题的一般步骤1.2什么是消极(惰性)的学习方法1.3KNN算法K个最近邻法(K-Nearst-Neighbor,KNN),解决监督学习中的分类问题1.1 解决监督学习中分类问题的一般步骤–也是解决机器学习问题的基本流程(写代码时也是这个流程)1.EDA数据探索性分析2.特征工程(目的:将数据转换成满足算法需求的数据)非数值数据做...
2020-04-21 19:27:57 46009 1
原创 决策树基本原理与sklearn应用
# 决策树算法1 决策树算法的引入1.1树的概念1.2算法思路1.3构建决策树的三个步骤2 特征分类的评价指标2.1熵的概念2.2信息熵的概念2.3Gini系数3 ID3算法4 C4.54.1决策树对连续属性的处理4.2决策树对离散属性的处理5 CART分类回归树5.1CART分类回归树简介5.2CART分类树---待预测结果为离散型数据5.3CART回归树--待预测结果为连续型数据5.4CART...
2020-03-07 22:13:31 902
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人