GC??-CSDN博客

原创八皇后问题简单处理（dfs版，搜索+回溯）

对于某个满足要求的8皇后的摆放方法，定义一个皇后串a与之对应，即a=b1b2…已经知道8皇后问题一共有92组解（即92个不同的皇后串）。如何将8个皇后放在棋盘上（有8×8个方格），使它们谁也不能被吃掉！这就是著名的八皇后问题。给出一个数b，要求输出第b个串。串的比较是这样的皇后串x置于皇后串y之前，当且仅当将x视为整数时比y小。第1行是测试数据的组数n，后面跟着n行输入。每组测试数据占1行，包括一个正整数b(1≤b≤92)。输出有n行，每行输出对应一个输入。输出应是一个正整数，是对应于b的皇后串。...

2022-07-28 14:54:38 226

原创 matplotlib利用函数简单绘制心形曲线2022.8.30

想了半天，原来power不能直接开2/3{以后不在这个种问题上纠结了，想了12个小时笑死我了}**也是直接指定指数就行。

2022-08-30 17:40:52 426

原创简单的高精度除以高精度

时间限制1000ms内存限制65536KB。提交数14176通过数6917。高精除以高精，求它们的商和余数。输入两个低于300位的正整数。

2022-07-28 14:48:56 393

原创 An Easy Problem贪心算法，最简单做法

/////举个例子，假如给定的N为78，其二进制表示为1001110，包含4个1，那么最小的比N大的并且二进制表示中只包含4个1的数是83，其二进制是1010011，因此83就是答案。//////给定一个正整数N，求最小的、比N大的正整数M，使得M与N的二进制表示中有相同数目的1。//////提交数8902通过数6267。//////输出若干行对应的值。//////【题目描述】//////【输入样例】//////【输出样例】//////【输入】//////【输出】...

2022-07-28 14:37:09 318

原创计算机网络一小时总结明天考试

1.在计算机网络中，internet 和 Internet 的含义是一样的。 ( F)1.internet(互联网或互连网):通用名词,它泛指由多个计算机网络互连而成的网络;协议无特指。2.Internet(因特网):专用名词,特指采用 TCP/IP 协议的互联网络。区别:后者实际上是前者的双向应用2.在计算机网络中,带宽用来表示网络中某通道传送数据的能力。表示在单位时间内网络中的某信道所能通过的“最高数据率”。 (T )在网络设备和带宽中使用的单位均为bps。bps是【bit per s

2022-06-26 20:46:21 2050

原创 14. DataFrame

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-0PH9hGCO-1655396298057)(assets/1653400255144.png)]上图直观地体现了DataFrame和RDD的区别。DataFrame是基于RDD之上的分布式数据集，给予Schema信息。（1）数据准备，在/opt/module/spark-local目录下创建一个user.json文件（2）查看Spark支持创建文件的数据源格式，使用tab键查看（3）读取json文件创建DataFrame

2022-06-17 00:18:34 429

原创 13.Storm框架应用

在介绍Storm之前，我们先看一个日志统计的例子：假如我们想要根据用户的访问日志统计使用斗鱼客户端的用户的地域分布情况，一般情况下我们会分这几步：取出访问日志中客户端的IP把IP转换成对应地域按照地域进行统计如果有时效性要求呢？小时级：还行，每小时跑一个MapReduce Job10分钟：还凑合能跑5分钟：够呛了，等槽位可能要几分钟呢1分钟：算了吧，启动Job就要几十秒呢秒级：… 要满足秒级别的数据统计需求，需要进程常驻运行；数据在内存中Storm正好适合这种需求。Storm vs. MapReduc

2022-06-17 00:17:57 283

原创 12.SparkSQL概述

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-g7Xrat4M-1655396200675)(assets/1653210188965.png)]Spark SQL是Spark用于结构化数据(structured data)处理的Spark模块。[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-EB5w3gRG-1655396200677)(assets/1653223225529.png)]SparkCore：RDD -> 取代 Ma

2022-06-17 00:16:53 203

原创 11.RDD行动算子

函数签名函数说明1.3 collect函数签名函数说明函数实例1.4 count函数签名函数说明返回RDD中元素的个数实例1.5 first函数签名函数说明返回RDD中的第一个元素实例1.6 take函数签名函数说明函数实例1.7 takeOrdered函数签名函数说明返回该RDD排序后的前n个元素组成的数组函数实例1.8 aggregate函数签名函数

2022-06-17 00:16:22 138

原创 10.RDD用法

函数签名函数说明用法1.3 mapPartitions方法函数签名函数说明小功能：获取每个数据分区的最大值[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-w0ka0mjo-1655396109919)(assets/clip_image002.jpg)] 思考一个问题：map和mapPartitions的区别？数据处理角度Map算子是分区内一个数据一个数据的执行，类似于串行操作。而mapPartitions算子是以分区为单位进行批处理操作。功能的角

2022-06-17 00:15:26 321

原创 9.RDD用法

从集合中创建RDD，Spark主要提供了两个方法：parallelize和makeRDD1.1.2 从外部存储（文件）创建RDD由外部存储系统的数据集创建RDD包括：本地的文件系统，所有Hadoop支持的数据集，比如HDFS、HBase等。1.1.3 从其他RDD创建主要是通过一个RDD运算完后，再产生新的RDD。1.1.4 直接创建RDD使用new的方式直接构造RDD，一般由Spark框架自身使用。2.2 RDD并行度与分区2.2.1 概述默认情况下，Spark可

2022-06-17 00:14:17 255

原创 8.RDD用法

RDD（Resilient Distributed Dataset）叫做弹性分布式数据集，是Spark中最基本的数据处理模型。代码中是一个抽象类，它代表一个弹性的、不可变、可分区、里面的元素可并行计算的集合。弹性分布式：数据存储在大数据集群不同节点上数据集：RDD封装了计算逻辑，并不保存数据数据抽象：RDD是一个抽象类，需要子类具体实现不可变：RDD封装了计算逻辑，是不可以改变的，想要改变，只能产生新的RDD，在新的RDD里面封装计算逻辑可分区、并行计算[外链图片转存失败,源站可能有防盗链机制,建议将图片保

2022-06-17 00:13:43 185

原创 7.Spark历史服务器配置及ha机制

1) 修改spark-defaults.conf.template文件名为spark-defaults.conf2) 修改spark-default.conf文件，配置日志存储路径注意：需要启动hadoop集群，HDFS上的directory目录需要提前存在。3) 修改spark-env.sh文件, 添加日志配置参数1含义：WEB UI访问的端口号为18080参数2含义：指定历史服务器日志存储路径参数3含义：指定保存Application历史记录的个数，如果超过这个值，旧的应

2022-06-17 00:12:26 325

原创 7.Spark历史服务器配置及ha机制

2022-06-17 00:11:19 636

原创 6.Spark运行环境

Spark作为一个数据处理框架和计算引擎，被设计在所有常见的集群环境中运行, 在国内工作中主流的环境为Yarn，不过逐渐容器式环境也慢慢流行起来。接下来，我们就分别看看不同环境下Spark的运行将spark-3.0.0-bin-hadoop3.2.tgz文件上传到Linux并解压缩，放置在指定位置，路径中不要包含中文或空格1.2.3 启动Local环境进入解压缩后的路径，执行如下指令启动成功后，可以输入网址进行Web UI监控页面访问在解压缩文件夹下的data目录中，添加word.txt文件。

2022-06-17 00:10:10 205

原创 5.Spark框架入门

回顾Hadoop历史Spark历史hadoopHadoop是由java语言编写的，在分布式服务器集群上存储海量数据并运行分布式分析应用的开源框架作为Hadoop分布式文件系统，HDFS处于Hadoop生态圈的最下层，存储着所有的数据，支持着Hadoop的所有服务。它的理论基础源于Google的TheGoogleFileSystem这篇论文，它是GFS的开源实现。MapReduce是一种编程模型，Hadoop根据Google的MapReduce论文将其实现，作为Hadoop的分布式计算模型，是Hadoop的

2022-06-16 23:39:42 237

原创 4.Spark学习笔记（scala综合案例分析）

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-0CfK7v4n-1655393698247)(assets/1649650988285.png)]6.3 优化写法7. 作业练习题如何通过统计计算算出单词出现次数，使用reduce方法ount)}...

2022-06-16 23:35:53 551

原创 3.Spark学习笔记（高级集合用法）

3.1.2 基本操作3.2 可变List3.2.1 基本语法3.2.2 基本操作3.2.3 可变集合和不可变集合转换3.3 Set集合3.3.1 不可变Set3.3.1.1 创建不可变的Set3.3.1.2 基本操作3.3.2 可变Set3.3.2.1 基本语法3.3.2.2 基本操作3.4 Map集合3.4.1 概述Map(映射)是一种可迭代的键值对（key/value）结构。所有的值都可以通过键来获取。Map 中的键都是唯一的。3.4.2 不可变Map

2022-06-16 23:33:41 372

原创 2.Spark学习（集合用法）

可变集合可以在适当的地方被更新或扩展。这意味着你可以修改，添加，移除一个集合的元素。scala.collection.immutable[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-0LUUC6OQ-1655393424628)(assets/1648536124515.png)]不可变集合类，相比之下，永远不会改变。不过，你仍然可以模拟添加，移除或更新操作。但是这些操作将在每一种情况下都返回一个新的集合，同时使原来的集合不发生改变，所以这里的不可变并不是变量本身的值不可变，

2022-06-16 23:30:56 472

原创 Spark学习笔记（面向对象编程）

Scala是一门完全面向对象的语言，摒弃了Java中很多不是面向对象的语法。虽然如此，但其面向对象思想和Java的面向对象思想还是一致的1.2 包用法1.2.1 基本语法Scala中基本的package包语法和Java完全一致1.2.2 scala包的特点可以让源码文件中多次使用package关键字源码物理路径和包名没有关系明确包的作用域，可以在package关键字的后面增加大括号同一个源码中，子包中可以直接访问父包中的内容scala可以将包当成对象来用可以直接声明属性和方法

2022-06-16 23:26:10 223

原创 7.读写HBase数据（华为云学习笔记，Spark编程基础，大数据）

读写HBase数据① 在hbase-shell中使用命令创建HBase数据库；② 使用Spark读写HBase数据库中的数据。实验原理-> HBaseHBase是一个高可靠、高性能、面向列、可伸缩的分布式数据库，主要用来存储非结构化和半结构化的松散数据。HBase的目标是处理非常庞大的表，可以通过水平扩展的方式，利用廉价计算机集群处理由超过10亿行数据和数百万列元素组成的数据表。-> hbase-shellhbase-shell是一种HBase交互式操作环境，可以在其中输入命令，完成数据库创建和

2022-06-13 15:57:13 852

原创 6.编写Spark独立应用程序(sbt)（华为云学习笔记，Spark编程基础，大数据）

编写Spark独立应用程序(sbt)① 使用Scala语言编写Spark独立应用程序；② 使用sbt工具对Spark应用程序进行编译打包。实验原理-> sbtSBT是一个现代化的构建工具。虽然它由Scala编写并提供了很多Scala便利，但它是一个通用的构建工具。可以使用sbt工具，对采用Scala语言编写的Spark应用程序进行编译打包。1. 安装sbt工具下载安装包请打开浏览器访问如下链接进行下载拷贝代码http://file.ictedu.com/fileserver/big_data_

2022-06-13 15:26:35 1574

原创 5.编写Spark独立应用程序(Maven)（华为云学习笔记，Spark编程基础，大数据）

实验拓扑图编写Spark独立应用程序(Maven)① 使用Scala语言编写Spark独立应用程序；② 使用Maven工具对Spark应用程序进行编译打包。实验原理-> MavenMaven是一个项目管理工具，它包含了一个项目对象模型 (Project Object Model)，一组标准集合，一个项目生命周期(Project Lifecycle)，一个依赖管理系统(Dependency Management System)，和用来运行定义在生命周期阶段(phase)中插件(plugin)目标(

2022-06-10 16:21:29 1157 1

原创 4.在spark-shell中运行代码（华为云学习笔记，Spark编程基础，大数据）

在spark-shell中运行代码① 能够使用正确的方式启动spark-shell；② 能够在spark-shell中进行交互式编程。实验原理-> spark-shellspark-shell提供了简单的方式来学习 API，并且提供了交互的方式来分析数据。你可以输入一条语句，spark-shell会立即执行语句并返回结果，这就是我们所说的REPL（Read-Eval-Print Loop，交互式解释器），它为我们提供了交互式执行环境，表达式计算完成以后就会立即输出结果，而不必等到整个程序运行完毕，

2022-06-10 15:57:21 2202

原创 3.Spark的安装（华为云学习笔记，Spark编程基础，大数据）

Spark的安装① 在Linux系统中安装Spark；② 运行Spark自带实例。实验原理-> SparkApache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架，Spark，拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是——Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更

2022-06-10 11:29:19 477

原创 2.Scala的安装和使用方法（华为云学习笔记，Spark编程基础，大数据）

Scala的安装和使用方法① 在Linux系统中安装Scala；② 使用Scala REPL；③ 编译打包Scala程序代码。实验原理-> ScalaScala于2004年1月公开发布1.0版本，目前仍处于快速发展阶段，每隔几个月就有新的版本发布。Spark从2.0版本开始都采用Scala2.11编译，因为本教程使用的Spark版本是2.1.0，其对应的Scala版本是2.11.8，所以，本教程中的Scala选用2017年4月发布的2.11.8版本。Scala运行在Java虚拟机（JVM）之上，

2022-06-08 18:17:00 1174

原创 2.安装组件客户端程序（华为云学习笔记，HCIP，大数据）2022.6.6

实验拓扑图大数据开发机大数据数据节点大数据管理节点大数据控制节点安装组件客户端程序在FusionInsight HD中,大多数组件都提供了命令行客户端，此实验指导用户如何下载单个组件和所有组件的客户端程序，以及如何安装和卸载单个组件和所有组件的客户端程序。访问FusionInsight Manager Web UI大数据管理节点管理段IP地址是访问FusionInsight Manager Web UI的ip地址，访问链接为 http://【大数据管理节点管理段IP地址】:8080/

2022-06-08 16:31:47 514

原创 1.FI管理页面的登录及环境介绍(华为云学习笔记，HCIP，大数据)2022.6.6

实验拓扑图大数据开发机（Ubantu）大数据数据节点大数据管理节点大数据控制节点FI管理页面的登录及环境介绍此实验指导用户如何登录 FusionInsight HD 的 web 管理界面，为后续对大数据集群的管理和维护提供前导知识1.进入大数据实验平台看到此文档，说明您已经成功的登录到了大数据实验平台，此时，您应该能够看到如下图的界面，如下图所示2.打开浏览器访问FusionInsight Manager web UI点击左侧大数据开发环境标签，在大数据开发环境中双击“火狐浏览

2022-06-06 15:35:56 1094 1

原创 1.Hadoop的安装和使用（华为云学习笔记，Spark编程基础，大数据）

此笔记为第一篇，学校开放华为云平台，帮助我们学习有关大数据方面相关知识的学习笔记，因为是云平台，是已经搭建好linux环境了，使用的是Ubantu。精心整理，自学笔记，如有什么问题，请耐心指正Hadoop的安装和使用学习Hadoop的安装和使用1 安装Hadoop前的准备工作介绍安装Hadoop之前的一些准备工作，包括创建hadoop用户、安装SSH和安装Java环境等。先配置hosts，输入以下命令，将本机的hostname添加到hosts文件中：拷贝代码echo "127.0.0.1 "$H

2022-05-24 11:43:56 2707

原创外链图片转存失败，源站可能有防盗链机制，导致图片加载不出来的问题（解决保姆级教程）如果想直接解决就把文章拉到最后+如何安装node.js+gitee仓库配置

外链图片转存失败，源站可能有防盗链机制，导致图片加载不出来的问题（解决保姆级教程）+如何安装node.js+gitee仓库配置

2022-05-22 03:37:28 1422 1

原创 2022.5.20深度学习技术学习（BETA版）TensorFlow框架中的张量与变量（后期会不断完善）

固定值张量进入[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-UB9pC7eA-1653011362369)(file:///C:\Users\ADMINI~1\AppData\Local\Temp\ksohtml17484\wps1.jpg)][外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-zrsn0PeD-1653011362370)(file:///C:\Users\ADMINI~1\AppData\Local\Temp\ksohtml

2022-05-20 09:52:08 317

原创第四篇：（关于学习早晚和选择平台的问题------掘金和CSDN）今天又发现了有趣的点

第三天了今天在硕博交流群里面，看到了一位同志发出来的问题，想找一下C++中文版的PDF文件，然后有人提议叫他去Z-librarie去找找看，然后B站上有能访问这地方的方法，然后就发现了一位年纪轻轻的宝藏UP，首先是自己的心态问题了，人家多岁就已经在B站发解决复杂问题的视频了，我多岁还在寻求答案，居然要一个多岁的小朋友教，简直就是入了晴天霹雳一般，所以还是要先摆正自己的学习心态，虽然人家可能比自己早了多年开始学习计算机，但是只要会学习的人就不丢脸。种一棵树的最好时间是在十年前其次是在现在如果要学好相关技

2022-05-19 16:25:11 422

原创第三篇：需要注意的事情（后面会逐渐完善）

注意事项

2022-05-18 18:47:42 190

原创第二篇：发现问题，写博客之前要学习一下markdown的原因

写第二篇博客时，自己发现的问题我发现，看别人学习的内容过程，如同JAVA一样，自己会看不下去，不是说别人写的不好，写的也很规范，规规矩矩，但是却不通俗易懂，这样这篇文章就失去了他对于我而言的价值，所以写博客我新发现的好处就是自己写的自己可以去看，自己舒服，自己的学习效率高，但是也有问题，就是这个就是需要联网才能写，但是我现在先试试用markdown编译器写，然后就是写完之后再直接导入...

2022-05-18 17:06:36 221

原创第一篇：写博客前言（为什么要写博客，以及为什么要用CSDN写博客）【学生的真实感受，浅显易懂，不啰哩吧嗦】

机缘提示：可以和大家分享最初成为创作者的初心例如：实战项目中的经验分享日常学习过程中的记录通过文章进行技术交流…收获提示：在创作的过程中都有哪些收获例如：获得了多少粉丝的关注获得了多少正向的反馈，如赞、评论、阅读量等认识和哪些志同道合的领域同行…日常提示：当前创作和你的工作、学习是什么样的关系例如：创作是否已经是你生活的一部分了有限的精力下，如何平衡创作和工作学习…憧憬提示：职业规划、创作规划等Tips您发布的文章将会展示至里程碑专区

2022-05-18 15:11:14 308

深度学习技术（tensorflow框架，张量与变量）【beta版】

深度学习技术（tensorflow框架，张量与变量）【beta版】，以后会逐渐完善，这一份是老师的笔记第2章 TensorFlow框架介绍 2 2.1. TF数据流图 2 2.1.1. 案例：TensorFlow实现一个加法运算 2 2.1.2. 数据流图介绍 3 2.2. 图与TensorBoard 5 2.2.1. 什么是图结构 5 2.2.2. 图相关操作 5 2.2.3. TensorBoard：可视化学习 7 2.2.4. OP 9 2.3. 会话 11 2.3.1. 会话 11 2.4. 张量 14 2.4.1. 张量(Tensor) 14 2.4.2. 创建张量的指令 16 2.4.3. 张量的变换 17 2.4.4. 张量的数学运算 19 2.5. 变量OP 19 2.5.1. 创建变量 19 2.5.2. 使用tf.variable_scope()修改变量的命名空间 20 2.6. 高级API 20 2.6.1. 其他基础API 21 2.6.2. 高级API 21 2.7. 案例：实现线性回归 22 2.7.1. 线性回归原理复习 23 2.7.2. 案例：实现线

2022-05-20

第1章机器学习概述 2 1.1. 人工智能概述 2 1.1.1. 机器学习与人工智能、深度学习 2 1.1.2. 机器学习、

第1章机器学习概述 2 1.1. 人工智能概述 2 1.1.1. 机器学习与人工智能、深度学习 2 1.1.2. 机器学习、深度学习能做些什么 3 1.1.3. 人工智能阶段课程安排 4 1.2. 什么是机器学习 5 1.2.1. 定义 5 1.2.2. 解释 5 1.2.3. 数据集构成 6 1.3. 机器学习算法分类 7 1.3.1. 总结 8 1.3.2. 练习 9 1.3.3. 机器学习算法分类 9 1.4. 机器学习开发流程 9 1.5. 学习框架与资料介绍 10 1.5.1. 机器学习库与框架 11 1.5.2. 书籍资料 11 1.5.3. 提深内功（但不是必须） 12 1.6. END 12

2022-05-21

第2章特征工程 2 2.1. 数据集 2 2.1.1. 可用数据集 2 2.1.2. sklearn数据集 4 2.1.3.

第2章特征工程 2（自我学习集） 2.1. 数据集 2 2.1.1. 可用数据集 2 2.1.2. sklearn数据集 4 2.1.3. 数据集的划分 6 2.2. 特征工程介绍 7 2.2.1. 为什么需要特征工程(Feature Engineering) 8 2.2.2. 什么是特征工程 8 2.2.3. 特征工程的位置与数据处理的比较 8 2.3. 特征抽取 9 2.3.1. 特征提取 10 2.3.2. 字典特征提取 10 2.3.3. 文本特征提取 12 2.4. 特征预处理 20 2.4.1. 什么是特征预处理 20 2.4.2. 归一化 21 2.4.3. 标准化 24 2.5. 特征降维 26 2.5.1. 降维 27 2.5.2. 降维的两种方式 27 2.5.3. 什么是特征选择 28 2.6. 主成分分析 36 2.6.1. 什么是主成分分析(PCA) 36 2.6.2. 案例：探究用户对物品类别的喜好细分降维 40 2.7. 总结 42 2.8. 作业 43 2.9. END 44

2022-05-21

第3章分类算法 3（ .1. 数据集介绍与划分 3 3.1.1. 数据集的划分 3 3.1.2. sklearn数据集介绍

第3章分类算法 3 3.1. 数据集介绍与划分 3 3.1.1. 数据集的划分 3 3.1.2. sklearn数据集介绍 4 3.2. sklearn转换器和估计器 6 3.2.1. 转换器和估计器 6 3.3. K-近邻算法 8 3.3.1. K-近邻算法(KNN) 9 3.3.2. 电影类型分析 9 3.3.3. K-近邻算法API 11 3.3.4. 案例：鸢尾花种类预测 11 3.3.5. K-近邻总结 13 3.4. 模型选择与调优 13 3.4.1. 为什么需要交叉验证 14 3.4.2. 什么是交叉验证(cross validation) 14 3.4.3. 超参数搜索-网格搜索(Grid Search) 14 3.4.4. 鸢尾花案例增加K值调优 15 3.4.5. 案例：预测facebook签到位置 17 3.4.6. 总结 19 3.5. 朴素贝叶斯算法 19 3.5.1. 什么是朴素贝叶斯分类方法 20 3.5.2. 概率基础 21 3.5.3. 条件概率与联合概率 22 3.5.4. 贝叶斯公式 23 3.5.5. API 25 3.5.6. 案例：20类

2022-05-21

第1章深度学习介绍 2 1.1. 深度学习与机器学习的区别 2 1.1.1. 特征提取方面 2 1.1.2. 数据量和计算性能

第1章深度学习介绍 2 1.1. 深度学习与机器学习的区别 2 1.1.1. 特征提取方面 2 1.1.2. 数据量和计算性能要求 3 1.1.3. 算法代表 3 1.2. 深度学习的应用场景 4 1.3. 深度学习框架介绍 4 1.3.1. 常见深度学习框架对比 4 1.3.2. TensorFlow的特点 6 1.3.3. TensorFlow的安装 7 1.4. END 8

2022-05-21

搭建Python开发环境在开始编程前，需要首先准备好相关工具。这里简单介绍一下如何搭建Python开发环境。可自行在Pyth

搭建Python开发环境在开始编程前，需要首先准备好相关工具。这里简单介绍一下如何搭建Python开发环境。可自行在Python官网上下载Python安装工具。截住作者完稿时，Python的最新版是3.8.2。双击下载好的软件。注意如果已经安装过是出现下面这个界面的，此时可能需要点击Uninstall卸载后再重新安装。如果还没安装Python，双击安装程序后见下图。这里底部有两个复选框，第一个已经默认选中，读者不需要理会，保持选中状态即可；第二个Add Python 3.8 to PATH默认没有选中，读者需要手动勾选，表示把Python安装路径添加到环境变量PATH中。另外系统会给Python软件的安装指定一个默认路径，单击Install Now按钮即可直接开始安装到该路径。如果读者需要Python安装到一个指定路径下，则单击Customize installation按钮。安装成功后，需要查看安装的程序是否能正常运行（这里以Windows10系统为例）。通过鼠标右键单击电脑左下角的窗口按钮，选择“运行”选项。如下图：在运行输入框中输入cmd，然后单击“确定”按钮。

2022-05-21

第4章 HDFS 2 4.1. 简介 2 4.1.1. 概述 2 4.1.2. 组成架构 4 4.1.3. HDFS文件块大小

第4章 HDFS 2 4.1. 简介 2 4.1.1. 概述 2 4.1.2. 组成架构 4 4.1.3. HDFS文件块大小 5 4.2. HDFS的shell操作 6 4.2.1. 基本语法 7 4.2.2. 参数大全 8 4.2.3. 常用命令实操 9 4.3. 通过Java实现HDFS操作及访问 14 4.3.1. IntelliJ IDEA 16 4.3.2. maven软件安装与配置 17 4.3.3. IDEA关联maven插件 19 4.3.4. 新建maven项目 19 4.3.5. 导入项目所需要的依赖 22 4.3.6. 编写Java代码——向HDFS文件系统创建文件夹 24 4.3.7. 编写Java代码——文件上传 27 4.3.8. 编写Java代码——删除文件夹 30 4.3.9. 编写Java代码——重命名文件 31 4.3.10. 编写Java代码——遍历文件夹 32 4.4. HDFS写数据流程 34 4.5. HDFS读数据流程 35 4.6. NameNode&Secondary NameNode工作机制 36 4.7. 错误问题解决 37 4.

2022-05-21

第5章 MapReduce分布式计算框架 2 5.1. MapReduce简介 2 5.2. wordcount经典案例介绍 2

第5章 MapReduce分布式计算框架 2 5.1. MapReduce简介 2 5.2. wordcount经典案例介绍 2 5.3. MapReduce进程介绍 3 5.4. MapReduce编程规范 3 5.5. wordcount经典案例的实现 5 5.5.1. 分析数据准备 5 5.5.2. 新建maven项目，导入项目所需要的依赖 6 5.5.3. Mapper阶段代码编写 10 5.5.4. Reduce阶段代码编写 12 5.5.5. 定义Driver类, 描述 Job 13 5.5.6. 使用maven将项目打包成jar包 15 5.6. MapReduce作业运行 16 5.7. END 19 第5章MapReduce分布式计算框架本章介绍了Hadoop的MapReduce分布式计算框架的基本概念、编程规范和词频统计实战等内容。从存储的大数据中快速抽取信息，进一步进行数据价值的挖掘，需要用到大数据的分布式计算技术的支持。Hadoop支持多种语言进行MapReduce编程，包括java、Python和C++等。本章从实战的角度出发，使用java编程语言通过

2022-05-21

第4章回归与聚类算法 2 4.1. 线性回归 2 4.1.1. 线性回归的原理 2 4.1.2. 线性回归的损失和优化原理（理

学习资源第4章回归与聚类算法 2 4.1. 线性回归 2 4.1.1. 线性回归的原理 2 4.1.2. 线性回归的损失和优化原理（理解记忆） 5 4.1.3. 线性回归API 9 4.1.4. 波士顿房价预测 10 4.1.5. 拓展-关于优化方法GD、SGD、SAG 14 4.1.6. 总结 15 4.2. 欠拟合与过拟合 15 4.2.1. 什么是过拟合与欠拟合 15 4.2.2. 原因以及解决办法 17 4.3. 线性回归的改进-岭回归 19 4.3.1. 带有L2正则化的线性回归-岭回归 19 4.4. 分类算法-逻辑回归与二分类 21 4.4.1. 逻辑回归的应用场景 21 4.4.2. 逻辑回归的原理 21 4.4.3. 逻辑回归API 23 4.4.4. 案例：癌症分类预测-良／恶性乳腺癌肿瘤预测 23 4.4.5. 分类的评估方法 25 4.5. 模型保存与加载 29 4.5.1. sklearn模型的保存和加载API 29 4.5.2. 线性回归的模型保存加载案例 29 4.6. 无监督学习-K-means算法 30 4.6.1. 什么是无监督学习 30 4.6

2022-05-21

第6章 Zookeeper 2 6.1. Zookeeper入门 2 6.1.1. 概述 2 6.1.2. 特点 3 6.1.3

第6章 Zookeeper 2 6.1. Zookeeper入门 2 6.1.1. 概述 2 6.1.2. 特点 3 6.1.3. 数据结构 4 6.1.4. 应用场景 4 6.1.5. 下载地址 6 6.2. Zookeeper安装 7 6.2.1. 本地模式安装部署 7 6.2.2. 配置参数解读 9 6.3. Zookeeper实战（开发重点） 10 6.3.1. 分布式安装部署 10 6.3.2. 客户端命令行操作 11 6.3.3. API应用 18 6.3.4. 箭头服务器节点动态上下线案例（扩展） 25 6.4. Zookeeper内部原理 28 6.4.1. 节点类型 29 6.4.2. Stat结构体 29 6.4.3. 监听器原理（面试重点） 30 6.4.4. Paxos算法（扩展） 32 6.4.5. 选举机制（面试重点） 34 6.4.6. 写数据流程 35 6.5. 企业面试真题 37 6.5.1. 请简述ZooKeeper的选举机制 37 6.5.2. ZooKeeper的监听原理是什么 37 6.5.3. ZooKeeper的部署方式有哪几种？集群中的角

2022-05-21

第2章 Linux 2 2.1. 简介 2 2.1.1. 概述 2 2.2. 环境搭建 2 2.2.1. 安装vmware 2

第2章 Linux 2 2.1. 简介 2 2.1.1. 概述 2 2.2. 环境搭建 2 2.2.1. 安装vmware 2 2.2.2. 安装CentOS 2 2.2.3. 虚拟机网络配置 4 2.2.4. 配置主机名 7 2.2.5. 配置防火墙 8 2.2.6. SSH远程登陆 10 2.2.7. 使用yum源 14 2.3. 安装MySQL 16 2.3.1. 卸载mysql 16 2.3.2. 给CentOS添加rpm源，并且选择较新的源 16 2.3.3. 安装mysql服务器 17 2.3.4. 启动mysql 17 2.3.5. 查看mysql是否自启动,并且设置开启自启动 18 2.3.6. mysql安全设置 18 2.3.7. 修改登陆密码 19 2.3.8. Windows上远程访问Linux中的mysql 21 2.4. 安装redis 23 2.4.1. 安装gcc 23 2.4.2. 安装redis 25 2.4.3. 修改配置文件 27 2.4.4. 服务及开机自启动 30 2.4.5. 设置远程访问 32 2.4.6. Python中访问 33 2.

2022-05-21

第3章 Hadoop 2 3.1. 简介 2 3.1.1. 概述 2 3.2. 环境搭建 2 3.2.1. 搭建过程总览 2

第3章 Hadoop 2 3.1. 简介 2 3.1.1. 概述 2 3.2. 环境搭建 2 3.2.1. 搭建过程总览 2 3.2.2. 集群规划 3 3.2.3. 电脑虚拟网卡VMnet8设置 3 3.2.4. 克隆机器 5 3.2.5. 设置三台虚拟机的硬盘至少为30G，内存至少为2G 7 3.2.6. 虚拟机网络模式设置为NAT 8 3.2.7. 设置静态IP 8 3.2.8. 修改主机名 9 3.2.9. 设置ip和域名的映射 10 3.2.10. 重启虚拟机让设置生效 10 3.2.11. 第二台和第三台虚拟机重复以上设置 10 3.2.12. 三台机器拍摄快照 10 3.2.13. 三台虚拟机关闭防火墙 11 3.2.14. 三台虚拟机关闭selinux 13 3.2.15. 三台虚拟机设置免密登陆 14 3.2.16. 三台虚拟机设置时钟同步 16 3.2.17. 安装jdk 18 3.2.18. 配置hadoop集群 22 3.3. 常见错误解决方法 36 3.3.1. 查看日志 36 3.3.2. 无法启动hadoop集群的检查方法 37 3.3.3. 执行jps

2022-05-21