jshazhang-CSDN博客

原创 MR工作流程

MR工作流程文章目录MR工作流程JOB提交创建staging路径获取jobId上传jar包到集群计算切片，生成切片规划文件向Stag路径写job.XML提交YARN配置上下文状态转换MRAppMasterYARNChaildMAPTaskMapOutputBuffer 环形缓冲区ReducTaskcopyPhaseFetcher线程sortPhasereducePhase写文件JOB提交客户端提交Job.waitForCompletionJob.submitsetUseNewAPI()适配API

2022-03-05 17:58:59 2530

原创 hadoop put流程代码

hadoop fs -put xxxx解析命令FsShell类的main方法进入创建实例FsShell shell = newShellInstance();ToolRunner.run(shell, argv)进入FsShell的run方法先init方法，主要是commandFactory = new CommandFactory(getConf())Command instance = commandFactory.getInstance(cmd);instance.run(argv)

2021-08-03 19:53:25 475

原创 namenode启动流程

启动命令hadoop-daemon.sh start namenodehdfs.sh namenode) HADOOP_SUBCMD_SUPPORTDAEMONIZATION="true" HADOOP_CLASSNAME='org.apache.hadoop.hdfs.server.namenode.NameNode' hadoop_add_param HADOOP_OPTS hdfs.audit.logger "-Dhdfs.audit.logger=${HDF

2021-06-30 17:04:50 1576

原创 hadoop3编译源码问题

不知道网上一点问题没出的是怎么编译的，只能膜拜。1.convert-ms-winutils由于环境不是vs的c++编译环境1.用vs的Visual Studio x64 Win64 命令提示(2010) 编译2.在cmd上先执行如下图Error running javah command网上说的修改hadoop-hdfs工程的pom.xml javapath改成绝对路径，还是不行。后来看到一个帖子，试了下吧maven本地库删了，成功了找不到符号找不到类，进去发现真没有，然后进源码包，

2021-06-30 16:47:18 315

原创 org.apache.hadoop.hdfs.DataStreamer: Exception in createBlockOutputStream问题

2020-08-24 19:12:15,596 INFO [Thread-925] org.apache.hadoop.hdfs.DataStreamer: Exception in createBlockOutputStream blk_1090328244_16602678java.io.IOException: Broken pipeat sun.nio.ch.FileDispatcherImpl.write0(Native Method)at sun.nio.ch.SocketDispatch

2020-10-15 20:17:42 2011

原创 kafka

kafaka组件brokerkafka集群中包含一个或多个服务器，服务器节点为brokerbroker存储topic的数据。如果某topic有N个partition，集群有N个broker，那么每个broker存储该topic的一个partition。如果某topic有N个partition，集群有(N+M)个broker，那么其中有N个broker存储该topic的一个partitio...

2020-02-26 19:30:11 1015

转载关于图算法 & 图分析的基础知识概览

网址：https://learning.oreilly.com/library/view/graph-algorithms-/9781492060116/你肯定没有读...

2020-02-20 10:57:13 1346

原创 softmax交叉熵

多分类问题神经网络输出多个类型，每个类型需要判断正确的概率，这个时候logisticregression就不行了，我们就需要新的函数来解决这个问题，也就是softmax，称归一化指数函数。softmax公式δ(z)=exp⁡zi∑j=1mexp⁡zj,i=1,...,m \delta(z) ={ {\exp^{z_i}}\over{ \sum_{j=1}^m \exp^{z_j}}},i=...

2019-12-26 19:57:16 288

原创 pmbok第六版itto整理

pmbok第六版itto

2019-08-18 15:32:44 1108

原创 java虚拟机笔记-虚拟机性能监控与故障处理工具

2019-03-21 14:35:07 209

原创决策树基本概念

信息量I=log⁡2mI=\log_2mI=log2m如果两队比赛，只有两个结果，m=2。I=1，信息量为1世界杯32支队伍，冠军的信息量I=log⁡232=5I=\log_232=5I=log232=5上面公式有个前提，就是m情况产生的概率均等事件出现的概率越小，信息量越大。信息量的多少是与事件发生频繁程度大小（概率大小）恰好相反。H(Xi)=−log⁡PH(X_i)=-\log...

2019-03-20 18:53:20 872

原创 hadoop3.1.1集群安装问题

这里不讲步骤，只讲遇到问题首先配置几个-site.xmlhadoop3端口号默认的改了Namenode 端口:50470 --> 987150070 --> 98708020 --> 9820Secondary NN 端口:50091 --> 986950090 --> 9868Datanode 端口:50020 --> 98675001...

2018-11-27 13:55:01 1234

原创 java虚拟机笔记-垃圾收集器与内存分配策略

2018-11-20 14:18:55 189

原创 java虚拟机笔记-java内存区域与内存溢出异常

2018-10-27 08:40:42 195

原创 SVM

点到目标函数距离如图y=w⋅x+b=0y=w \cdot x +b =0y=w⋅x+b=0y1=w⋅x1+b=1y_1=w \cdot x_1 +b =1y1=w⋅x1+b=1 ①y2=w⋅x2+b=−1y_2=w \cdot x_2 +b =-1y2=w⋅x2+b=−1②两个点所在的决策边界距离d要尽量大。d=∥x1−x2∥cosθ\parallel x_1 - x_2 \p...

2018-09-25 19:14:10 260

原创 solr大批量数据导出

需求有100个core，每个core4000w数据量。把所有数据导出来。方案1.直接对每个core通过HttpSolrClient先取出总条数，然后通过每次分页读n行，直到读完，这个方案肯定不行，因为越到后面，读取速度越慢，不用想都要很长时间。方案2.深度分页通过游标，可以使分页速度很快。SolrQuery solrQuery = new SolrQuery();solrQuery...

2018-09-20 14:21:51 6007 4

原创多元函数的极值

多元函数的极值定义z=f(x,y) (x,y)∈∈\inD,M0(x0,y0)∈D(M0是D的内点),U(M0,δ(域))⊂DM0(x0,y0)∈D(M0是D的内点),U(M0,δ(域))⊂DM_0(x_0,y_0)\in D(M_0是D的内点) ,U(M_0,\delta(域))\subset D若f(x0,y0x0,y0x_0,y_0)是函数z=f(x,y)在U(M0,δ)U(...

2018-08-18 09:59:26 27804 4

原创 BP推导

图符号aniaina_i^n推导向前传播第一层a(1)1=x1ja1(1)=x1ja_{1}^{(1)}=x_{1j}a(1)2=x2ja2(1)=x2ja_{2}^{(1)}=x_{2j}第二层z(2)1=a(1)1w(1)1+a(1)2w(1)3+b1=x1jw(1)1+x2jw(1)3+b1z1(2)=a1(1)w1(1)+a2(1)w3(1)+b1=x1...

2018-07-12 19:14:19 512

原创 mapreduce运行遇到的问题-1

1.ShuffleError: error in shuffle in fetcherError: org.apache.hadoop.mapreduce.task.reduce.Shuffle$ShuffleError: error in shuffle in fetcher#1 at org.apache.hadoop.mapreduce.task.reduce.Shuffle.ru...

2018-07-05 20:06:44 1671 2

原创 solr入数据报async exception during distributed update bad request错误

因为入库时候增加了索引，schema没有更新增加索引表。导致不一致

2018-06-28 09:39:54 1324

原创 logistic回归公式推导

假设函数h(θ)=11+e−θTXh(θ)=11+e−θTXh(\theta)={1\over{1+e^{-\theta^TX}}}为什么使用sigmod代价函数J(θ)=−1m∑i=1m[yilog(hθ(xi))+(1−yi)log(1−hθ(xi))]J(θ)=−1m∑i=1m[yilog⁡(hθ(xi))+(1−yi)log⁡(1−hθ(xi))]J(\theta)=-{1...

2018-06-05 21:03:33 912

原创线性回归损失函数推导-最大似然

把统计看了一遍就是为了这里! 线性回归假设函数为 y=θTXy=θTXy=\theta^TX 之前是根据函数图像推导出损失函数为误差平方和，这次用统计学方法推导。拟合数据，就是把误差减到最小误差ϵ=y−θTXϵ=y−θTX\epsilon=y-\theta^TX。假设误差服从正态分布，误差最小也就是期望为0。ϵϵ\epsilon~N(0,σ2σ2\sigma^2) 最大似然估计...

2018-05-28 20:01:18 2368 1

原创统计-参数估计

参数估计在数理统计中，我们见到的总体X一般都是未知的。即便根据以往的经验和数据，知道X服从哪类分布，，其数字特征（数学期望，方差，矩）也是未知的。这些未知的数字特征以及含在总体X中的未知数称为未知参数未知参数\color{red}{未知参数}简称参数为了估计未知参数的真值或其所在区间，就要从总体X中抽取样本，然后用样本构造某种统计量，来估计未知参数或其范围。这种方法叫参数估计参...

2018-05-28 14:57:57 3062

原创多元线性回归正规方程java代码

正规方程：A=(XXT)−1XTYA=(XXT)−1XTYA=(XX^T)^{-1}X^TY 之前已经证明过了。用JAMA包做矩阵计算结果自己造的数据矩阵不可逆。。。。。package com.zy.ml;import java.io.File;import java.io.IOException;import java.util.ArrayList;import java....

2018-05-23 16:42:55 2369 4

原创多元线性回归批量梯度下降java代码

多元假设函数 hθ(x)=θTX=θ0x0+θ1x1+...+θnxn,x0=1hθ(x)=θTX=θ0x0+θ1x1+...+θnxn,x0=1h_{\theta}(x)=\theta^TX=\theta_0x_0+\theta_1x_1+...+\theta_nx_n , x_0=1 多元代价函数 J(θ0,θ1,...,θn)=12m∑i=1m(hθ(xi)−yi)2J(θ0,...

2018-05-22 18:54:54 1064 2

原创统计-样本及抽样分布

第六章样本及抽样分布在概率中，我们所研究的随机变量的分布都是假设已知的。在数理统计中，我们研究的随机变量的分布是未知的，或者是不完全知道的。我们通过对随机变量进行大量重复、独立的观察，收集书记，然后对数据进行整理，分析，从而对所研究的随机变量的分布作出各种推断。随机样本总体与个体在数理统计中，我们把研究的对象的全体称为总体总体\color{red}{总体}，总体中的每...

2018-04-21 19:22:14 1599

原创 md图片测试

![avatar](data:image/jpg;base64, /9j/4AAQSkZJRgABAQAAAQABAAD/2wBDAAgGBgcGBQgHBwcJCQgKDBQNDAsLDBkSEw8UHRofHh0a HBwgJC4nICIsIxwcKDcpLDAxNDQ0Hyc5PTgyPC4zNDL/2wBDAQkJCQwLDBgNDRgyIRwhMjIyMjIy MjIyMjIyMjI...

2018-04-14 10:12:42 2921

原创统计-大数定律及中心极限定理

大数定律及中心极限定理

2018-03-28 18:49:24 2062

原创统计-随机变量的数字特征

第四章随机变量的数字特征数学期望例子成绩 0分 1分 2分 3分 4分 5分人数 2 5 8 15 12 8 频率 2/50 5/50 8/50 15/50 12/50 8/50平均成绩为（0×2+1×5+2×8+3×15+4×12+5×8）/50=3.08...

2018-03-25 16:24:33 918

原创统计-二维随机变量

二维随机变量

2018-03-22 20:29:17 7586

原创统计-随机变量

随机变量定义设随机试验E的样本空间为S={e}，若X=X(e)是定义在样本空间S的上的一个单值实函数，则称X=X(e)为随机变量简单说，让每一个样本点e对应着唯一的实数X(e)，便得到随机变量X=X(e)离散型随机变量若随机变量只可能取有限个或可数无限个值时连续型随机变量若随机变量只可能取一个区间中的所有实数时随机变量的概率随机变量X取某个值x的...

2018-03-03 14:29:30 5629

原创 spark工作遇到问题-1

spark问题

2018-02-12 15:35:03 345

原创读jar包里面多个文件

程序有一堆文件要读，并且要打jar包

2018-01-30 17:04:11 451

转载使用 IntelliJ IDEA打包Spark应用程序

使用 IntelliJ IDEA打包Spark应用程序

2017-12-20 14:19:12 1195

原创数据算法-hadoop7 购物车分析

购物车分析

2017-11-29 22:25:59 442

转载梯度下降（Gradient Descent）小结

在求解机器学习算法的模型参数，即无约束优化问题时，梯度下降（Gradient Descent）是最常采用的方法之一，另一种常用的方法是最小二乘法。这里就对梯度下降法做一个完整的总结。1. 梯度　　　　在微积分里面，对多元函数的参数求∂偏导数，把求得的各个参数的偏导数以向量的形式写出来，就是梯度。比如函数f(x,y), 分别对x,y求偏导数，求得的梯度向量就是(∂f/∂x, ∂f/∂

2017-11-09 19:59:02 3586