11.11.1-CSDN博客

转载 Docker基础实战教程四：数据卷操作

想象一下这样的场景，假设事先执行了docker run -v /data --name vocontainer1 ubuntu，由于-v标签没有指定“数据卷名”，那么为数据卷会随机生成一个“数据卷名”。数据卷是被设计用来持久化数据的，它的生命周期独立于容器，如果在创建容器时挂载了数据卷，执行docker rm删除容器时，并不会自动地将容器对应的数据卷删除掉。本关任务是学习创建一个数据卷，要求学习者参照示例，创建一个名为vo1的数据卷，并将该数据卷挂载到container1容器的/dir1目录。

2024-07-22 09:43:15 1958

原创 Docker基础实战教程二：镜像管理

之前我们用到的镜像，无论是ubuntu镜像还是busybox镜像，都是来自于官方Docker Hub中的镜像。本关任务是学习保存镜像和加载镜像，要求学习者参照示例完成将busybox:latest镜像保存为一个tar包，在删除busybox:latest镜像之后，通过该tar包恢复busybox:latest镜像。本关任务是学习使用Commit定制一个镜像，要求学习者参照示例完成定制一个busybox:v1镜像，该镜像在busybox:latest的基础上，新增了一个hello.txt文件。

2024-07-22 09:37:45 2326 1

原创 Docker基础实战教程三：Dockerfile

其中df命令用来查看磁盘的信息。要求df命令不能被覆盖，但-Th能够被覆盖。本关的任务是深入认识docker build命令，以及学习COPY和ADD指令，要求学习这参照实例，使用Dockerfile构建一个名为busybox:v3的镜像，Dockerfile的内容为：以busybox为基础镜像，并将上下文目录下的dir1.tar“解压提取后”，拷贝到busybox:v3的/中。前面我们学习过使用commit构建一个镜像，由于commit在构建镜像时，很容易将无关内容添加到镜像且维护起来十分困难。

2024-07-21 19:52:07 2303 1

原创 Docker基础实战教程一：入门

本关的任务是学习准备一个容器的运行环境，更准确的说，应该是拉取一个具备某个运行环境的镜像，要求学习者参照示例完成“从Docker Hub中拉取一个busybox:1.27镜像”的功能。不知道你有没有过这样的疑问，使用docker start启动了一个终止的容器，这仅仅只是启动了这个容器并执行了容器的“启动命令”，怎么进入这个容器的内部来操控容器呢？本关的任务是学习如何进入一个正在运行的容器的内部，要求学习者参照示例，进入一个名为container2的容器内部，并在容器内部创建一个1.txt文件。

2024-07-20 18:02:57 2810

原创共享单车之租赁需求预估

本关任务：编写python代码，完成一天中不同时间段的平均租赁数量的可视化功能。本关任务：编写python代码，完成时间细化的功能。本关任务：编写python代码，实现租赁需求预估。sklearn机器学习算法的使用。

2024-07-20 17:37:04 370

原创共享单车之数据可视化

本实训数据基于共享单车之数据分析最后一关的数据（流量最高的五条数据）。本关任务：使用JSP在百度地图上绘制一条共享单车起始路程。本关任务：在地图上绘制共享单车中流量最高的五条路线的路程。JSP页面中如何获取后台传的数据；如何在后台传数据给JSP页面；如何在地图上绘制多条路程线。如何在地图上绘制路程线。

2024-07-20 17:35:14 297

转载共享单车之数据分析

本关任务：使用Hbase的MapReduce对已经存在 Hbase 的共享单车运行数据进行分析，统计共享单车每天的平均使用时间，其中共享单车运行数据在Hbase的t_shared_bicycle表中（表结构可在编程要求中进行查看）。本关任务：使用Hbase的MapReduce对已经存在Hbase的共享单车运行数据进行分析，统计共享单车指定时间的使用次数，其中共享单车运行数据在Hbase的t_shared_bicycle表中（表结构可在编程要求中进行查看）。如何配置Hbase的MapReduce类；

2024-07-20 17:32:23 351

转载共享单车之数据存储

获取工作簿中的信息，我们可以使用Java POI（POI是一个提供API给Java程序对Microsoft Office格式档案读和写的功能）提供的Workbook类来操作。本关任务：从dataResources.xls文件中获取共享单车数据，保存到HBase中。为了完成本关任务，你需要掌握：如何获取Wookbook的数据。本关任务：获取data.xls文件中的数据。了解共享单车数据表格式以及如何获取数据；如何创建HBase表；如何存储到HBase。

2024-07-20 17:25:18 296

原创企业岗位需求决策（三）：数据可视化

为了完成本关任务，你需要掌握：1.如果使用 Echarts。本关任务：编写一个 Echarts 图表程序。

2024-07-20 17:17:14 333

原创企业岗位需求决策（二）：数据清洗

场景说明：对各大招聘网站进行数据采集（采集岗位数据），采集的数据不一定是正确且完整的数据，所以我们需要过滤掉这些残缺或者错误的数据，从而保证统计的准确性。答：由于需求的要求，我们要将清洗完毕的数据，存储到MySql中，并为接下来的数据可视化做准备。答：我们采集过来的数据，并不是所有数据都满足业务需求，所以我们需要过滤掉不满足需求的数据。为了完成本关任务，你需要掌握：1.如何使用Jdbc，2.如何使用预处理对象。本关任务：编写Jdbc工具类，并完成使用其工具类，完成数据插入。问：为什么要进行数据清洗？

2024-07-20 17:15:53 307

原创企业岗位需求决策（一）：数据采集

为了完成本关任务，你需要掌握：1.如何使用 Webclient，2.如何对页面进行分析获取 Xpath 规则。本关任务：编写 Webclient 程序完成对页面数据的采集。

2024-07-20 17:12:06 438

转载旅游网站之数据可视化

为了完成本关任务，你需要掌握：1.什么是词云？本关任务：将第一关生成的词云进行渲染，生成一个更好看直观的词云。为了完成本关任务，你需要掌握：词云的一些基本渲染。编写，应用于词频分析，词云生成的开源技术。为了完成本关任务，你需要掌握：1. 如何从。中获取数据，2.词云单词颜色渐变色设置。框架绘制一个简单的词云。本关任务：使用上一章节。

2024-07-19 20:02:25 1004

原创旅游网站之数据分析

对酒店和城市数据进行分析，统计每个城市的酒店平均价格，其中酒店和城市数据已经存储在。对酒店评论数据进行分析，统计香港某酒店评论中。表中（表结构可在编程要求中进行查看）。，其中酒店数据已存储在。

2024-07-19 20:00:16 574

转载旅游网站大数据分析 - 数据存储

文件中获取酒店评论数据，并保存到Hbase中。中获取酒店和城市数据，保存到。

2024-07-19 19:56:43 492

原创旅游网站大数据分析 - 数据清洗

数据（包含了所有元素）进行清洗，得到我们需要的标签数据。在这里提供了一个方便的清洗数据方法，下面我们一起来学习。为了更好的解析数据，我们要将一些无意义的数据进行清洗。数据拿到，最后将重要数据进行截取，返回一个清晰重要的。本关任务：获取携程网北京市酒店的所有信息。，请求的参数有很多，经检验可只传城市。数据进行解析便可得到酒店相关信息。获取，下面简单介绍通过网络请求将。中但是放在另外的位置通过酒店。将获取到携程网的城市酒店的。通过分析酒店相关信息是。数据中，价格也在同一个。对应，并且请求方式是。

2024-07-19 19:55:01 1105

转载旅游网站大数据分析 - 数据抓取

现在我们要来一起完成第一步，数据获取，在我们知道一个网站地址的前提下，如何提取该网站的数据为我们所用呢？现在我们目标是获取携程旅游网的数据，然后将获取到的数据清洗，清洗一些无意义的数据，最后在存入到。实例对象，并查找到一些元素之后，取得在这些元素中的数据。使用一种有别于其他开源项目的方式——抓取携程旅游网的全国城市信息。是如何用最简单的代码实现。获取携程旅游网的数据。解析器最基本的功能，但。中，这样我们就完成了。本关任务：解析并提取。本关任务：解析并提取。

2024-07-19 19:53:25 532

原创情感分析方法与实践

本关任务：根据本关所学有关情感分析的知识，编写基于 SnowNLP 模块进行情感分析的程序，并通过所有测试用例。本关任务：根据本关所学有关情感分析的知识，编写基于情感词典进行情感分析的程序，并通过所有测试用例。基于情感词典的情感分析算法实现流程。基于 SnowNLP 进行情感分析。基于情感词典的情感分析算法思想；

2024-07-18 19:53:06 748

原创 TextRank 算法

本关任务：根据本关所学有关使用 Jieba 库进行关键词提取的知识，编写使用 Jieba 模块进行关键词提取的程序，并通过所有测试用例。本关任务：根据所学有关 TextRank 算法的知识，完成 TextRank 算法程序的编写并通过所有测试用例。TextRank 算法的步骤与特点。Jieba 提取关键词的方法。PageRank 算法的思想；Jieba 模块的使用；

2024-07-18 19:47:30 260

原创分类器方法

本关任务：根据本关所学有关朴素贝叶斯的知识，编写基于朴素贝叶斯理论进行文本分类的程序，并通过所有测试用例。本关任务：根据本关所学有关支持向量机的知识，编写基于支持向量机理论进行文本分类的程序，并通过所有测试用例。朴素贝叶斯分类器的实现。支持向量机分类器的实现。支持向量机理论的思想；贝叶斯决策理论思想；

2024-07-18 19:46:01 346

原创 LDA 算法

本关任务：根据所学有关 LDA 算法原理的知识，完成基于 gensim 模块进行 LDA 关键词提取的程序编写并通过所有测试用例。基于 gensim 模块进行 LDA 关键词提取。LDA 算法的原理；

2024-07-18 19:41:34 967 1

原创机器学习在 NLP 中的实战

本关任务：根据本关所学有关 DBSCAN 文本聚类的知识，编写基于 DBSCAN 算法的文本聚类并通过所有测试用例。本关任务：根据本关所学有关文本聚类的知识，编写基于 K-Means 算法的文本聚类并通过所有测试用例。本关任务：根据所学知识，完成右侧对应的练习题。

2024-07-17 20:17:58 678

原创章节测验---8

本关任务：根据编程要求，完成任务。本关任务：根据编程要求，完成任务。本关任务：根据编程要求，完成任务。打开右侧代码文件窗口，在。区域补充代码，完成任务。打开右侧代码文件窗口，在。区域补充代码，完成任务。打开右侧代码文件窗口，在。区域补充代码，完成任务。

2024-07-17 20:04:08 418

原创章节测验---7

本关任务：根据编程要求，完成任务。本关任务：根据编程要求，完成任务。本关任务：根据编程要求，完成任务。打开右侧代码文件窗口，在。区域补充代码，完成任务。打开右侧代码文件窗口，在。区域补充代码，完成任务。打开右侧代码文件窗口，在。区域补充代码，完成任务。

2024-07-17 19:59:56 441 1

原创章节测验---5

文件，并填充 Python 语句完成右侧代码文件中列出的所有操作。本关任务：根据编程要求，完成任务。本关任务：根据编程要求，完成任务。本关任务：根据编程要求，完成任务。打开右侧代码文件窗口，在。区域补充代码，完成任务。打开右侧代码文件窗口，在。区域补充代码，完成任务。打开右侧代码文件窗口，在。区域补充代码，完成任务。读取 MySQL 数据库。

2024-07-17 19:51:04 356

原创章节测验---4

其中每行存储的内容由两个字段组成，第一个是学生名字，第二个是学生的成绩。，现在需要对这两个文件进行合并，并剔除其中重复的内容，将合并结果存储到。本关任务：根据编程要求，完成任务。本关任务：根据编程要求，完成任务。打开右侧代码文件窗口，在。区域补充代码，完成任务。打开右侧代码文件窗口，在。区域补充代码，完成任务。

2024-07-17 19:49:20 296

原创章节测验---3

启动 Hadoop 服务，然后将 Linux 系统本地文件。，然后统计出该文件的行数，直接打印输出统计的结果。，然后统计出文件的行数，直接打印输出统计的结果。中读取 Linux 系统本地文件。本关任务：根据编程要求，完成任务。本关任务：根据编程要求，完成任务。上传到 HDFS 中的根目录。读取 HDFS 系统上的文件。打开右侧代码文件窗口，在。区域补充代码，完成任务。打开右侧代码文件窗口，在。区域补充代码，完成任务。

2024-07-17 19:47:53 611

原创 Spark案例剖析 - 谷歌网页排名引擎PageRank实战

工欲善其事必先利其器，大数据分析中最重要的是熟练掌握数据导入工具的使用方法。Spark SQL是Spark自带的数据库，本关你将应用Spark SQL的数据导入工具实现文本数据的导入。本关你将学习并了解PageRank算法的基本原理，并使用该算法计算A,B,C,D四个网页被访问的概率值并输出。上一关我们将网页数据导入到Spark SQL数据库中，本关你将再次利用Spark SQL语句查询。表中的数据，并返回前5条网页数据。文件中含有网页及其连接网页。

2024-07-16 20:39:29 460

原创 spark算子简单案例 - Python

知识完成 " 好友推荐 " 的程序。知识编写一个词频统计程序。

2024-07-16 20:35:27 566

原创军用大数据 - Spark机器学习

分类器完成坦克类型分类任务。

2024-07-16 20:34:11 677

原创军用大数据--Spark图数据计算与分析实战

本关任务：编写一个计算出度和入度总数相同站点的小程序。// 初始化spark// 顶点属性(1L, "南马补给站"),(2L, "多贝尔补给站"),(3L, "安其补给站"),(4L, "雪山补给站"),(5L, "终极火力补给站"),(6L, "末日补给站"),(7L, "英迪补给站"),(8L, "远洋补给站")))// 各顶点间的关系数据))// 定义图结构// 计算所有出度和入度总数相同的补给站点，若出度和入度总数量相同则打印至控制台。

2024-07-16 20:32:12 688

原创军用大数据--结构化流式数据处理

Spark Streaming 是一套优秀的实时计算框架。其良好的可扩展性、高吞吐量以及容错机制能够满足我们很多的场景应用。上一关我们介绍了如何实时获取数据，并处理数据，本关结合上一关的场景，结合 Kafka 把分析结果读出来。Spark Streaming 是一套优秀的实时计算框架。其良好的可扩展性、高吞吐量以及容错机制能够满足我们很多的场景应用。本关结合我们的应用场景，介结我们如何使用 Spark Streaming 处理数据。

2024-07-16 20:30:41 604

原创军用大数据 - 结构化数据分析与处理

通过飞行速度统计出战斗机飞行性能排比。统计出各个研发单位研制战斗机占比。

2024-07-16 20:28:38 524

原创电商精准营销—购买意向预测

为了完成本关任务，你需要掌握： 1.随机森林模型原理；2.网格搜索调参技巧。1.理解随机森林模型的原理，确定随机森林的树的个数；本关任务：对随机森林模型进行调参，使得模型最优。2.使用 sklearn 包搭建随机森林模型。为了完成本关任务，你需要掌握：评价模型的方法。本关任务：根据要求，建立随机森林模型。本关任务：对调参后的模型结果进行评价。

2024-07-16 20:24:30 807

原创电商精准营销—特征工程

为了完成本关任务，你需要掌握： 1.python 对时间变量处理技巧；2.时间空间特征的处理方法。为了完成本关任务，你需要掌握： 1.类型变量的处理方法；2.如何使用 python 进行热编码。本关任务：对类别特征进行编码，使其能够直接应用于模型。为了完成本关任务，你需要掌握：特征选择的原理和方法。本关任务：处理时间空间特征变量，提取衍生变量。本关任务：在已有的特征中进行特征选择。

2024-07-16 20:22:21 604

原创电商精准营销—数据探索与可视化

为了完成本关任务，你需要掌握： 1.使用 python 的 matplotlib 和 seaborn 包画饼图和密度图；为了完成本关任务，你需要掌握： 1.利用 python 的 matplotlib 画条形图和折线图；2.分析双变量之间的关系。本关任务：探索用户的购买意向与年龄、性别和用户等级之间的关系。本关任务：探索用户的购买意向与商品评论之间的关系。本关任务：通过数据可视化探索单变量的分布情况。本关任务：探索客户购买意象和时间之间的关系。在本关主要使用条形图来探索双变量之间的关系。

2024-07-16 20:19:58 1622

原创电商精准营销—数据清洗

为了完成本关任务，你需要掌握： 1.python 中数据透视表的使用方法；2.异常值检测和处理方法；3.python 处理异常值技巧。为了完成本关任务，你需要掌握： 1.缺失数据处理的方法；2.pandas 处理真实数据技巧。本关任务：使用 python3 对实例数据中的变量做缺失值处理，梳理数据分析的流程。为了完成本关任务，你需要掌握：重复值的处理方法。本关任务：对数据集的重复数据进行处理。本关任务：对数据集的异常值进行处理。

2024-07-16 20:17:29 455

原创电商精准营销—数据预处理概述

为了完成本关任务，你需要掌握： 1.数据样本抽取的方法；2、数据清洗的技巧。本关任务：对指定样本数据进行预处理，掌握数据预处理的技巧。本关任务：对变量进行转换。

2024-07-16 20:15:18 333

原创 Hive -- 桶表

分区提供一个隔离数据和优化查询的便利方式。不过，并非所有的数据集都可形成合理的分区。对于一张表或者分区，Hive 可以进一步组织成桶，也就是更为细粒度的数据范围划分。分桶是将数据集分解成更容易管理的若干部分的另一个技术。分区针对的是数据的存储路径；分桶针对的是数据文件。---创建mydb数据库---使用mydb数据库use mydb;---创建分桶表dept_buck：根据deptno分成4个桶----创建中间表temp_dept_buck：与dept_buck表结构一致。

2024-07-16 20:11:22 399

原创 Hive -- 外部分区表

Hive 创建内部表时（默认创建内部表），会将数据移动到数据仓库指向的路径；创建外部表（需要加关键字。在删除表的时候，内部表的元数据和数据会被一起删除，而外部表只删除元数据，不删除数据。本关任务：根据相关知识内容实现 Hive 外部分区表的操作。），仅记录数据所在的路径，不对数据的位置做任何改变。

2024-07-16 20:10:27 211

原创 Hive -- 内部分区表

本关任务：根据相关知识内容实现 Hive 内部分区表的操作。

2024-07-16 20:08:28 420

空空如也

空空如也