学不会K8S不改ID-CSDN博客

原创 MIT Distributed Systems 课程笔记4（Primary/Backup Replication）

Replication可以处理哪些类型的故障？单个副本的“故障停止”故障如：风扇停止工作，CPU 过热并自行关闭有人被副本电源线或网线绊倒软件发现磁盘空间不足并停止也许不是硬件缺陷或软件错误或人为配置错误地震或全市停电怎么样？让副本在物理上分开存储。两种主要的复制方法：状态转移主副本执行服务，主要将 [新] 状态发送到备份复制状态机客户端将操作发送到主节点，主序列并发送到备份所有副本执行所有操作如果相同的开始状态，相同的操作，同样的顺序，确定性的，然后相同的结束状态。

2021-10-04 16:07:04 247

原创 MIT Distributed Systems 课程笔记3（GFS）

为什么分布式存储很难？高性能 -> 在多台服务器上分片数据许多服务器 -> 不断出现故障容错 -> 复制复制 -> 潜在的不一致更好的一致性 -> 低性能我们想要什么来保持一致性？理想模型：与单个服务器相同的行为服务器使用磁盘存储服务器一次执行一个客户端操作（即使是并发的）读取反映以前的写入客户端C想要读取文件的步骤是什么？C 向主 M 发送文件名和偏移量（如果没有缓存）M 找到该偏移量的块句柄M 回复包含块服务器列表，只有最新版本的C缓

2021-10-04 10:01:47 198

原创 MIT Distributed Systems 课程笔记2（RPC and threads）

RPC and threads使用go语言来表现线程和RPCWhy use go?良好的线程支持方便的 RPC类型安全垃圾回收机制编程相对简单Why use thread?表达了并发性，在分布式系统中需要I/O 并发性多核，性能高方便Threading challenges共享数据的存贮在线程之间共享可变数据的协调死锁网络爬虫实例目标是获取所有网页，例如提供给索引器Crawler challenges利用 I/O 并发获取每个 URL 只获取一次需要

2021-09-28 10:35:13 240

原创 MIT Distributed Systems 课程笔记1（Introduction）

IntroductionWhat is a distributed system?多台电脑合作完成大规模数据集运算，如：MapReduce，点对点共享许多设施是分布式的Why do people build distributed systems?通过多线程并行操作，提高性能通过生成副本，避免文件丢失可以将计算放在离外部实体更近的地方通过隔离增加系统的安全外部实体：指系统以外，又和系统有联系的人或事物，它说明了数据的外部来源和去处，属于系统的外部和系统的界面。Topicfa

2021-09-27 11:05:48 353

原创 (论文阅读) Efficient Estimation of Word Representations in Vector

(论文阅读) Efficient Estimation of Word Representations in Vector源自谷歌对Word2Vec的贡献。主要内容：提出新的模型来计算较大数据集的词的向量表示。期望不仅相似的单词趋于彼此接近，而且单词可以有多个相似度。优点：重点研究神经网络学习的单词的分布式表示。研究表明，神经网络在保持单词之间的线性规律方面明显优于潜在语义分析（LSA），潜在狄利克雷分配（LDA）在大型数据集上的计算成本非常高。Continuous Bag-of-Words

2021-09-20 17:18:23 674

原创吴恩达神经网络和深度学习第四周编程作业

第四周作业：用多层神经网络训练二分类模型通过训练一个数据集，来分析图片中是否有猫。参考博客：https://blog.csdn.net/u013733326/article/details/797671691.导入需要使用包并设置种子2.初始化两层网络参数而使用的函数3.初始化多层网络参数而使用的函数4.实现前向传播的线性部分5.实现LINEAR-> ACTIVATION 这一层的前向传播6.多层模型的向前传播计算7.实施成本函数8.为单层实现反向传播的线性部分（第L层）9.实现

2021-07-06 17:03:34 705

原创吴恩达神经网络和深度学习观看笔记（5）

Deep L-layer Networks深层的神经网络文章目录Deep L-layer Networks1、Deep L-layer Neural Network2、 Forward propagation in a deep network3、Getting your matrix dimensions right4、Building blocks of deep nerual networks5、Forward and backward propagation1、Deep L-layer N

2021-06-19 11:18:46 142

原创吴恩达神经网络和深度学习第二周编程作业

第二周作业：二分类问题通过训练一个数据集，来分析图片中是否有猫。导入数据集遍历训练集和测试集的key，查看key的维度。图中list_classes是图片标签，train_set_x：保存的是训练集里面的图像数据（本训练集有209张64x64的图像）。train_set_y ：保存的是训练集的图像对应的分类值（【0 | 1】，0表示不是猫，1表示是猫）取出训练集和测试集，查看一张训练集的图片数据维度的处理，把矩阵都转化为我们需要的形式标准化数据回顾一下公式7.未完待续...

2021-06-10 11:02:26 300

原创集群启动zookeeper，有一个节点一直无法启动！【已解决】

问题描述：在启动zookeeper集群时，第一个节点一直not running，怎么也起不来。解决方案：找到zookeeper的数据存储位置，即datadir，一般配置的时候我们会设置这个。在datadir目录下找到version-2文件夹，查看里面是否有内容。使用rm -f *命令删除version-2中的所有内容。重新启动zookeeper集群即可。启动成功！...

2021-06-08 08:46:13 4481 6

原创吴恩达神经网络和深度学习观看笔记（4）

One hidden layer Neural Network浅层的神经网络文章目录One hidden layer Neural Network1、Neural Networks Overview1、Neural Networks Overview如图，就是把logistic回归做了两次计算，实际上我们需要不断的计算a和z，最后计算损失函数。当然，在神经网络中还会有很多的反向计算，如图中红色箭头，会反向计算出da，dw，dz等值。如下图所示，这是一个简单的双层神经网络，包含输入层，隐藏层，

2021-06-06 11:08:28 303

原创吴恩达神经网络和深度学习观看笔记（3）

Vectorization在深度学习中，向量化用于消除一些for循环来加快运算的速度。文章目录Vectorization1、What is Vectorization2、More Vectorization Examples1、What is Vectorization向量化就是把一些需要循环运算的数据用向量去表示和运算。如图，随机向量的乘机，我们用for循环迭代相加和用numpy中的dot函数去做，时间差距可以达到两百倍。2、More Vectorization Examples不仅仅有

2021-06-04 10:06:15 143

原创 Git 连接Github使用，上传我的第一个项目

在Github上传我的第一个项目今天要开始研究生的课题了，老师在Github上创建了Team，先自己学一下Git，尝试上传我的一个本科项目代码。1、去github上创建自己的Repository。2、在本地去创建一个gitcode的文件夹吧，作为自己上传东西的地方。3、复制图片中的连接，在git bash中切换到刚才创建的文件目录下，执行git clone命令：git clone https://github.com/zhoumengbo/product.git4、上传自己的文件到这个目录下

2021-06-03 11:29:06 236

原创吴恩达神经网络和深度学习观看笔记（2）

Basics of Neural Network Programming文章目录Basics of Neural Network Programming1、Binary Classification1、Binary ClassificationIn a binary classification problem, the result is a discrete value output.在一个二元分类问题中，结果是一个离散的值输出。例如：帐户被黑客攻击(1)或妥协(0)，-肿瘤的恶性(1)或

2021-05-31 09:33:28 196

原创吴恩达神经网络和深度学习观看笔记（1）

Al is the new ElectricityElectricity had once transformedcountless industries: transportation,manufacturing, healthcare，communications, and more.Al will now bring about an equallybig transformation.电力曾经改变了无数的行业：运输、制造、医疗保健、通信等等。现在，所有这些都将带来同样巨大的转变。What is

2021-05-28 11:08:21 196

原创《Hadoop权威指南》阅读笔记（1）

第一章：初识Hadoop开头的Grace Hopper的话就让我印象深刻：古时候人们用牛来拉重物，当一头牛拉不动的时候，人们从来没有考虑过要想方设法培育出一头更强壮的牛。同理，我们也不应该去想方设法的研发超级计算机，而是去利用更多计算机来解决问题。也许这就是早期人们研究分布式的一些灵感吧。在这个数据爆炸的时代，我们已经有了大量的数据，那么问题来了，我们怎么去分析和存储这些数据？问题很简单，在硬盘存储容量多年来提升的同时，硬盘的读取速度却并没有与时俱进。原先五分钟就可以读完的硬盘，现在却要用好几个小时，

2021-05-27 10:54:34 457

原创【大数据项目学习】第十二章：Kafka 集群安装部署

第十二章：Kafka 集群安装部署一个初学者的大数据学习过程文章目录第十二章：Kafka 集群安装部署1. 下载2. 解压3. 修改配置文件4. Kafka 安装目录同步5. 再次修改 server.properties6. 创建日志目录7.Kafka 集群启动与测试8.Kafka 集群监控1. 下载Kafka 版本选择：Flume 对 Kafka 版本的要求：http://flume.apache.org/FlumeUserGuide.html#kafka-sinkSpark 对 K

2021-02-05 11:30:37 216

原创【大数据项目学习】第十一章：Kafka消息系统

第十一章：Kafka消息系统一个初学者的大数据学习过程文章目录第十一章：Kafka消息系统1. Kafka是什么2. Kafka在Linked In的应用3. Kafka设计目标4. Kafka特点5. Kafka在生态圈中的位置6. Kafka系统架构组成6.1 Broker6.2. Topic6.3. Partition6.4 Offset6.5 Replica6.6 Message6.7 Producer6.8 Consumer：6.9 Consumer Group6.10 Zookeeper7

2021-01-28 12:34:06 290 1

原创【设计模式学习】第四种： AbstractFactory - 抽象工厂模式

第四种： AbstractFactory - 抽象工厂模式设计模式真的很不错！根据上节，我们现在可以任意定制交通工具和生产过程，现在要求我们任意定制产品一族！该怎么做？—> 抽象工厂模式看代码：public abstract class AbstractFactory {//抽象工厂类 abstract Food creatFood(); //产品族：食物，交通工具，武器 abstract Vehicle creatVehicle(); abstract Weapon creatWea

2021-01-27 20:41:46 168

原创【大数据项目学习】第十章：HBase分布式集群部署与设计

第十章：HBase分布式集群部署与设计一个初学者的大数据学习过程文章目录第十章：HBase分布式集群部署与设计1. HBase安装前须知1.1 必备条件1.1.1 硬件1.1.2 软件1.2 运行模式2. HBase安装部署2.1 集群规划2.1.1 主机规划2.1.2 软件规划2.1.3 用户规划2.1.4 目录规划2.2 HBase 安装步骤2.2.1 下载2.2.1 解压2.2.1 创建软连接2.2.1 修改配置文件2.2.1 添加 hdfs 配置文件2.2.1 同步 HBase 安装目录2.2

2021-01-26 11:57:21 745

原创用hive执行select查询，使用mapreduce离线查询就一直卡在这里，原来是yarn出了问题，两个节点都是standby！【已解决】

求高人指点！！！

2021-01-23 11:18:23 1009

原创【设计模式学习】第三种： FactoryMethod - 工厂方法模式

第三种： FactoryMethod - 工厂方法模式设计模式真的很不错！任何可以产生对象的方法或类都可以成为工厂，单例也是一种工厂。那么有了new之后为什么还要有工厂呢？第一，我要控制生产过程。第二，我要控制权限，修饰，加些日志…下面我们看一个简单的例子，来引出工厂方法模式。1. 引例假设你现在要选择一种交通工具出门，有三种选择：car ，plane， broom（扫把）。你该怎么设计，可以实现任意定制交通工具。在学过策略之后，这个应该很简单。public interface Movea

2021-01-22 20:51:29 122

原创【大数据项目学习】第九章：HBase数据库

第九章：HBase数据库一个初学者的大数据学习过程文章目录第九章：HBase数据库1. HBase简介1.1 是什么1.2 生态圈中的位置1.3 特点1.4 数据模型1.5 物理模型2. HBase系统架构2.1 Zookeeper2.2 Master2.3 RegionServer3. HBase实际应用案例1. HBase简介1.1 是什么HBase是构建在HDFS之上的分布式列存储数据库，是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，利用HBase技术可以在廉价PC Serv

2021-01-22 13:46:37 378

原创【大数据项目学习】第八章：Eclipse与MapReduce集成开发

第八章：Eclipse与MapReduce集成开发一个初学者的大数据学习过程文章目录第八章：Eclipse与MapReduce集成开发1. JDK 安装1.1 下载并解压 JDK1.2 配置 jdk 环境变量1.3 验证 jdk 是否安装成功2. 安装 Eclipse3. Maven 安装3.1Maven 下载3.2 解压 Maven 安装包3.3 配置 maven 环境变量3.4 测试 maven4.Eclipse 配置 maven4.1 打开 Eclipse 点击 window>prfere

2021-01-20 14:32:23 248

原创启动 hive web 时使用 hive - -service hwi 报错：Unable to find a javac compiler...【已解决】

问题描述：启动 hive web 时使用 hive - -service hwi 报错：Problem accessing /hwi/. Reason:Unable to find a javac compiler; com.sun.tools.javac.Main is not on the classpath. Perhaps JAVA_HOME does not point to the JDK. It is currently set to “/home/hadoop/app/jdk1.8.0

2021-01-20 13:38:55 343 1

原创【大数据项目学习】第七章：MapReduce分布式计算框架

第七章：MapReduce分布式计算框架一个初学者的大数据学习过程文章目录第七章：MapReduce分布式计算框架1. MapReduce概述1.1 产生背景1.2 定义1.3 优缺点1.4 基本设计思想2. MapReduce编程模型3. Wordcount 案例分析1. MapReduce概述1.1 产生背景MapReduce 源之于Google的MapReduce论文。 2004年12月份，谷歌发表了关于分布式计算框架MapReduce的论文。 Nutch的开发人员根据该论文实

2021-01-19 13:34:44 834

原创【设计模式学习】第二种： Strategy - 策略模式

第二种： Strategy - 策略模式设计模式真的很不错！策略模式定义了一系列的算法，并将每一个算法封装起来，而且使它们还可以相互替换。策略模式让算法独立于使用它的客户而独立变化。下面我们看一个简单的例子，来引出策略模式。1. 引例package strategypublic class Sorter { //这里有一个排序类，采用的是选择排序算法 public void sort(int[] arr) { for(int i=0; i<arr.length-1; i++){

2021-01-17 21:09:34 174

原创【大数据项目学习】第六章：YARN：一种新的Hadoop资源管理器（详述及部署）

第六章：YARN：一种新的Hadoop资源管理器一个初学者的大数据学习过程文章目录第六章：YARN：一种新的Hadoop资源管理器1. YARN 概述1.1 YARN是什么？1.2 YARN在生态圈中的位置1.3 YARN与MapReduce关系2. YARN系统架构2.1 ResourceManager2.2 NodeManager2.3 ApplicationMaster2.4 Container3. MapReduce ON YARN4. YARN HA（高可用）5. YARN 安装部署5.1

2021-01-17 12:29:20 507 1

原创【设计模式学习】第一种： Singleton - 单例模式

第一种：单例模式 - singleton设计模式真的很不错！有好多人一听单例模式，觉得很简单，但是，你真的懂单例模式吗？单例模式现在在市面上一共有八种写法，当然有一些写法是有问题的。这里我们简单列举几例，最后给出最好的单例模式写法—>枚举单例1. 饿汉式简单实用，推荐！类只要加载，首先必须实例化一个单例，JVM保证线程的安全。先把构造方法设成私有的，让别人用不了，别人想要用，只能调用你的getInstance方法，返回之前静态的instance对象，因此不管调用多少次，这个instan

2021-01-16 21:00:15 160 1

原创 win10系统，利用maven从命令行打包项目（包含maven环境变量配置）【已解决】

第一步：配置maven的环境变量。（若已配置maven环境变量可忽略第一步）1.计算机右键属性，选择高级系统设置 —> 高级 —> 环境变量2.系统变量中添加一个变量，变量名：MAVEN_HOME ，变量值：maven的安装目录。3.在变量path中添加一条： %MAVEN_HOME%\bin4.检查是否配置成功。利用cmd打开命令行，输入mvn -vision。若出现以下情况即成功。第二步：利用maven从命令行打包项目win10中操作与windows之前版本略有不同。

2021-01-16 11:39:46 1676 1

原创导入maven项目之后，项目里什么也没有，包括jar包，Maven dependencies，src文件，target文件。【已解决】

项目场景：导入maven项目之后，项目里什么也没有，包括jar包，Maven dependencies，src文件，target文件。正常情况应该是这样：解决方案：进入pom.xml右键选择 run as —> maven install右键选择 run as —> maven clean想要的东西就会出来了！另外若出现Missing artifact jdk.tools:jdk.tools:jar:1.6 报错。参考：https://blog.csdn.net/qq

2021-01-16 11:16:11 977

原创导入maven项目时报错：org.apache.maven.archiver.MavenArchiver.getManifest【已解决】

问题描述：在Eclipse中导入Maven项目时，pom.xml第一行报错：org.apache.maven.archiver.MavenArchiver.getManifest(org.apache.maven.project.MavenProject,org.apache.maven.archiver.MavenArchiveConfiguration)原因分析：需要升级插件。解决方案：Help —> Install New SoftWare点击add添加：Name：Mave

2021-01-16 10:46:53 611

原创 Maven引入Hadoop依赖报错：Missing artifact jdk.tools:jdk.tools:jar:1.6【已解决】

解决方案：其中pom.xml中如果出现一个jdk1.6的missing报错，还要加一个依赖： <dependency> <groupId>jdk.tools</groupId> <artifactId>jdk.tools</artifactId> <version>1.7</version> <scope>system</scope> <sy

2021-01-16 10:38:16 839

原创【大数据项目学习】第五章：HDFS分布式文件系统（详述及部署）

第五章：HDFS分布式文件系统（详述及部署）一个初学者的大数据学习过程文章目录第五章：HDFS分布式文件系统（详述及部署）1.HDFS概述1.1 定义1.2 特点2.HDFS体系结构2.1 Client2.2 NameNode2.3 DataNode2.4 Block(数据块)2.5 元数据2.6 命名空间镜像(FSlmage)2.7 镜像编辑日志(EditLog)3.HDFS HA （高可用）3.1 HDFS HA-Namenode HA工作原理3.2 HDFS HA-ZKFailoverContr

2021-01-15 12:49:11 784

原创【大数据项目学习】第三章：集群节点 JDK 安装

第三章：JDK 安装一个初学者的大数据学习过程文章目录第三章：JDK 安装1. 下载 JDK2. 解压 JDK3. 创建软连接3.4 配置环境变量3.4.1 修改/etc/profile 文件3.4.2 修改.bashrc 文件3.5 source 使配置文件生效3.6 检查 JDK 是否安装成功3.7 JDK 安装包同步到其他节点1. 下载 JDKZookeeper 是由 Java 编写，运行在 JVM，所以需要提前安装 JDK 运行环境。可以到官网下载对应版本的 jdk，这里选择安装 j

2021-01-14 14:24:36 223 1

原创【大数据项目学习】第四章：Zookeeper（详述及部署）

第三章：Zookeeper（详述及部署）一个初学者的大数据学习过程文章目录第三章：Zookeeper（详述及部署）1.Zookeeper概述-是什么2.Zookeeper特点2.1 最终一致性2.2 可靠性2.3 实时性2.4 等待无关（wait-free）2.5 原子性2.6 顺序性3.Zookeeper在生态圈的位置4.Zookeeper系统架构4.1 概述4.2 角色4.3 数据读写流程4.3 工作原理4.4 服务（Znode）5.Zookeeper集群部署5.1 安装模式5.2 安装步骤5.2

2021-01-13 13:58:02 382

原创【大数据项目学习】第二章：集群节点准备3

第二章：集群节点准备3一个初学者的大数据学习过程文章目录第二章：集群节点准备310.openssh-clients 服务10.1 安装 openssh-clients 服务10.2 测试 ssh 命令11.主机名与 IP 映射12.SSH 免密码登录12.1 明确目标用户12.2 创建.ssh 目录12.3 生成秘钥12.4 将公钥 copy 到认证文件12.5 为.ssh 赋予权限12.6 验证 ssh 免密码登录13.FileZilla 工具使用13.1 下载安装 FileZilla13.2 Fi

2021-01-12 20:36:06 1364 4

原创【大数据项目学习】第二章：集群节点准备2

第二章：集群节点准备2一个初学者的大数据学习过程文章目录第二章：集群节点准备25.Linux 静态 IP 配置5.1 修改网卡信息：5.2 修改网卡信息之后，需要重启网络服务5.3 重启网络后，通过 ifconfig 查看网络配置5.4 测试运行6.X-Shell 工具使用6.1 下载安装 X-Shell 远程连接工具6.2 X-Shell 远程连接 Linux 虚拟机6.3 打开 X-Shell 工具6.4 然后选择 Authentication,配置用户名和密码6.5 在 Sessions 对话框

2021-01-12 13:35:59 315

原创在hbase shell中出错：org.apache.hadoop.hbase.ipc.ServerNotRunningYetException: Server is not running yet

hbase shell报错原因分析：HDFS处于安全模式，应将其关闭。当分布式文件系统（HDFS）开始启动时，会有安全模式，HDFS处在安全模式下，文件系统中不允许修改和删除的操作。解决方案：关闭安全模式在hadoop目录下执行命令bin/hdfs dfsadmin -safemode leave如图：即可关闭安全模式，在hbase shell中写命令就不报错了！...

2021-01-12 13:17:13 940 3

原创报错：The Load Balancer is not enabled which will eventually cause performance degradation in HBase...

报错：The Load Balancer is not enabled which will eventually cause performance degradation in HBase as Regions will not be distributed across all RegionServers.问题描述：在用web查看hbase的时候报这个错误。翻译一下：没有启用负载均衡器，这将最终导致HBASE中的性能下降，因为区域不会分布在所有RegionServers上。解决方案：

2021-01-12 12:34:38 4152

原创【大数据项目学习】第二章：集群节点准备1

第二章：集群节点准备1一个初学者的大数据学习过程文章目录第二章：集群节点准备1一、Vmware虚拟机介绍与安装1.虚拟机介绍1.1 虚拟机是什么？1.2 如何搭建虚拟机？1.3 虚拟化软件有哪些以及该如何选择？2.VMware 虚拟机安装2.1VMware 下载2.2VMware 安装2.2.1 安装2.2.2 选择安装类型2.2.3 选择安装的功能2.2.4 workstation Server 组件配置2.2.5 软件更新二、Linux系统介绍与安装3.Linux系统介绍与安装3.1Linux 操

2021-01-10 18:58:13 875 3

空空如也

空空如也