自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(65)
  • 收藏
  • 关注

原创 Docker基础实战教程四:数据卷操作

想象一下这样的场景,假设事先执行了docker run -v /data --name vocontainer1 ubuntu,由于-v标签没有指定“数据卷名”,那么为数据卷会随机生成一个“数据卷名”。数据卷是被设计用来持久化数据的,它的生命周期独立于容器,如果在创建容器时挂载了数据卷,执行docker rm删除容器时,并不会自动地将容器对应的数据卷删除掉。本关任务是学习创建一个数据卷,要求学习者参照示例,创建一个名为vo1的数据卷,并将该数据卷挂载到container1容器的/dir1目录。

2024-07-22 09:43:15 318

原创 Docker基础实战教程二:镜像管理

之前我们用到的镜像,无论是ubuntu镜像还是busybox镜像,都是来自于官方Docker Hub中的镜像。本关任务是学习保存镜像和加载镜像,要求学习者参照示例完成将busybox:latest镜像保存为一个tar包,在删除busybox:latest镜像之后,通过该tar包恢复busybox:latest镜像。本关任务是学习使用Commit定制一个镜像,要求学习者参照示例完成定制一个busybox:v1镜像,该镜像在busybox:latest的基础上,新增了一个hello.txt文件。

2024-07-22 09:37:45 262

原创 Docker基础实战教程三:Dockerfile

其中df命令用来查看磁盘的信息。要求df命令不能被覆盖,但-Th能够被覆盖。本关的任务是深入认识docker build命令,以及学习COPY和ADD指令,要求学习这参照实例,使用Dockerfile构建一个名为busybox:v3的镜像,Dockerfile的内容为:以busybox为基础镜像,并将上下文目录下的dir1.tar“解压提取后”,拷贝到busybox:v3的/中。前面我们学习过使用commit构建一个镜像,由于commit在构建镜像时,很容易将无关内容添加到镜像且维护起来十分困难。

2024-07-21 19:52:07 161

原创 Docker基础实战教程一:入门

本关的任务是学习准备一个容器的运行环境,更准确的说,应该是拉取一个具备某个运行环境的镜像,要求学习者参照示例完成“从Docker Hub中拉取一个busybox:1.27镜像”的功能。不知道你有没有过这样的疑问,使用docker start启动了一个终止的容器,这仅仅只是启动了这个容器并执行了容器的“启动命令”,怎么进入这个容器的内部来操控容器呢?本关的任务是学习如何进入一个正在运行的容器的内部,要求学习者参照示例,进入一个名为container2的容器内部,并在容器内部创建一个1.txt文件。

2024-07-20 18:02:57 370

原创 共享单车之租赁需求预估

本关任务:编写python代码,完成一天中不同时间段的平均租赁数量的可视化功能。本关任务:编写python代码,完成时间细化的功能。本关任务:编写python代码,实现租赁需求预估。sklearn机器学习算法的使用。

2024-07-20 17:37:04 128

原创 共享单车之数据可视化

本实训数据基于共享单车之数据分析最后一关的数据(流量最高的五条数据)。本关任务:使用JSP在百度地图上绘制一条共享单车起始路程。本关任务:在地图上绘制共享单车中流量最高的五条路线的路程。JSP页面中如何获取后台传的数据;如何在后台传数据给JSP页面;如何在地图上绘制多条路程线。如何在地图上绘制路程线。

2024-07-20 17:35:14 186

原创 共享单车之数据分析

本关任务:使用Hbase的MapReduce对已经存在 Hbase 的共享单车运行数据进行分析,统计共享单车每天的平均使用时间,其中共享单车运行数据在Hbase的t_shared_bicycle表中(表结构可在编程要求中进行查看)。本关任务:使用Hbase的MapReduce对已经存在Hbase的共享单车运行数据进行分析,统计共享单车指定时间的使用次数,其中共享单车运行数据在Hbase的t_shared_bicycle表中(表结构可在编程要求中进行查看)。如何配置Hbase的MapReduce类;

2024-07-20 17:32:23 226

原创 共享单车之数据存储

获取工作簿中的信息,我们可以使用Java POI(POI是一个提供API给Java程序对Microsoft Office格式档案读和写的功能)提供的Workbook类来操作。本关任务:从dataResources.xls文件中获取共享单车数据,保存到HBase中。为了完成本关任务,你需要掌握:如何获取Wookbook的数据。本关任务:获取data.xls文件中的数据。了解共享单车数据表格式以及如何获取数据;如何创建HBase表;如何存储到HBase。

2024-07-20 17:25:18 219

原创 企业岗位需求决策(三):数据可视化

为了完成本关任务,你需要掌握:1.如果使用 Echarts。本关任务:编写一个 Echarts 图表程序。

2024-07-20 17:17:14 159

原创 企业岗位需求决策(二):数据清洗

场景说明:对各大招聘网站进行数据采集(采集岗位数据),采集的数据不一定是正确且完整的数据,所以我们需要过滤掉这些残缺或者错误的数据,从而保证统计的准确性。答:由于需求的要求,我们要将清洗完毕的数据,存储到MySql中,并为接下来的数据可视化做准备。答:我们采集过来的数据,并不是所有数据都满足业务需求,所以我们需要过滤掉不满足需求的数据。为了完成本关任务,你需要掌握:1.如何使用Jdbc,2.如何使用预处理对象。本关任务:编写Jdbc工具类,并完成使用其工具类,完成数据插入。问:为什么要进行数据清洗?

2024-07-20 17:15:53 189

原创 企业岗位需求决策(一):数据采集

为了完成本关任务,你需要掌握:1.如何使用 Webclient,2.如何对页面进行分析获取 Xpath 规则。本关任务:编写 Webclient 程序完成对页面数据的采集。

2024-07-20 17:12:06 117

原创 旅游网站之数据可视化

为了完成本关任务,你需要掌握:1.什么是词云?本关任务:将第一关生成的词云进行渲染,生成一个更好看直观的词云。为了完成本关任务,你需要掌握:词云的一些基本渲染。编写,应用于词频分析,词云生成的开源技术。为了完成本关任务,你需要掌握:1. 如何从。中获取数据,2.词云单词颜色渐变色设置。框架绘制一个简单的词云。本关任务:使用上一章节。

2024-07-19 20:02:25 150

原创 旅游网站之数据分析

对酒店和城市数据进行分析,统计每个城市的酒店平均价格,其中酒店和城市数据已经存储在。对酒店评论数据进行分析,统计香港某酒店评论中。表中(表结构可在编程要求中进行查看)。,其中酒店数据已存储在。

2024-07-19 20:00:16 135

原创 旅游网站大数据分析 - 数据存储

文件中获取酒店评论数据,并保存到Hbase中。中获取酒店和城市数据,保存到。

2024-07-19 19:56:43 188

原创 旅游网站大数据分析 - 数据清洗

数据(包含了所有元素)进行清洗,得到我们需要的标签数据。在这里提供了一个方便的清洗数据方法,下面我们一起来学习。为了更好的解析数据,我们要将一些无意义的数据进行清洗。数据拿到,最后将重要数据进行截取,返回一个清晰重要的。本关任务:获取携程网北京市酒店的所有信息。,请求的参数有很多,经检验可只传城市。数据进行解析便可得到酒店相关信息。获取,下面简单介绍通过网络请求将。中但是放在另外的位置通过酒店。将获取到携程网的城市酒店的。通过分析酒店相关信息是。数据中,价格也在同一个。对应,并且请求方式是。

2024-07-19 19:55:01 171

原创 旅游网站大数据分析 - 数据抓取

现在我们要来一起完成第一步,数据获取,在我们知道一个网站地址的前提下,如何提取该网站的数据为我们所用呢?现在我们目标是获取携程旅游网的数据,然后将获取到的数据清洗,清洗一些无意义的数据,最后在存入到。实例对象,并查找到一些元素之后,取得在这些元素中的数据。使用一种有别于其他开源项目的方式——抓取携程旅游网的全国城市信息。是如何用最简单的代码实现。获取携程旅游网的数据。解析器最基本的功能,但。中,这样我们就完成了。本关任务:解析并提取。本关任务:解析并提取。

2024-07-19 19:53:25 277

原创 情感分析方法与实践

本关任务:根据本关所学有关情感分析的知识,编写基于 SnowNLP 模块进行情感分析的程序,并通过所有测试用例。本关任务:根据本关所学有关情感分析的知识,编写基于情感词典进行情感分析的程序,并通过所有测试用例。基于情感词典的情感分析算法实现流程。基于 SnowNLP 进行情感分析。基于情感词典的情感分析算法思想;

2024-07-18 19:53:06 182

原创 TextRank 算法

本关任务:根据本关所学有关使用 Jieba 库进行关键词提取的知识,编写使用 Jieba 模块进行关键词提取的程序,并通过所有测试用例。本关任务:根据所学有关 TextRank 算法的知识,完成 TextRank 算法程序的编写并通过所有测试用例。TextRank 算法的步骤与特点。Jieba 提取关键词的方法。PageRank 算法的思想;Jieba 模块的使用;

2024-07-18 19:47:30 170

原创 分类器方法

本关任务:根据本关所学有关朴素贝叶斯的知识,编写基于朴素贝叶斯理论进行文本分类的程序,并通过所有测试用例。本关任务:根据本关所学有关支持向量机的知识,编写基于支持向量机理论进行文本分类的程序,并通过所有测试用例。朴素贝叶斯分类器的实现。支持向量机分类器的实现。支持向量机理论的思想;贝叶斯决策理论思想;

2024-07-18 19:46:01 203

原创 LDA 算法

本关任务:根据所学有关 LDA 算法原理的知识,完成基于 gensim 模块进行 LDA 关键词提取的程序编写并通过所有测试用例。基于 gensim 模块进行 LDA 关键词提取。LDA 算法的原理;

2024-07-18 19:41:34 199

原创 机器学习在 NLP 中的实战

本关任务:根据本关所学有关 DBSCAN 文本聚类的知识,编写基于 DBSCAN 算法的文本聚类并通过所有测试用例。本关任务:根据本关所学有关文本聚类的知识,编写基于 K-Means 算法的文本聚类并通过所有测试用例。本关任务:根据所学知识,完成右侧对应的练习题。

2024-07-17 20:17:58 161

原创 章节测验---8

本关任务:根据编程要求,完成任务。本关任务:根据编程要求,完成任务。本关任务:根据编程要求,完成任务。打开右侧代码文件窗口,在。区域补充代码,完成任务。打开右侧代码文件窗口,在。区域补充代码,完成任务。打开右侧代码文件窗口,在。区域补充代码,完成任务。

2024-07-17 20:04:08 140

原创 章节测验---7

本关任务:根据编程要求,完成任务。本关任务:根据编程要求,完成任务。本关任务:根据编程要求,完成任务。打开右侧代码文件窗口,在。区域补充代码,完成任务。打开右侧代码文件窗口,在。区域补充代码,完成任务。打开右侧代码文件窗口,在。区域补充代码,完成任务。

2024-07-17 19:59:56 141

原创 章节测验---5

文件,并填充 Python 语句完成右侧代码文件中列出的所有操作。本关任务:根据编程要求,完成任务。本关任务:根据编程要求,完成任务。本关任务:根据编程要求,完成任务。打开右侧代码文件窗口,在。区域补充代码,完成任务。打开右侧代码文件窗口,在。区域补充代码,完成任务。打开右侧代码文件窗口,在。区域补充代码,完成任务。读取 MySQL 数据库。

2024-07-17 19:51:04 216

原创 章节测验---4

其中每行存储的内容由两个字段组成,第一个是学生名字,第二个是学生的成绩。,现在需要对这两个文件进行合并,并剔除其中重复的内容,将合并结果存储到。本关任务:根据编程要求,完成任务。本关任务:根据编程要求,完成任务。打开右侧代码文件窗口,在。区域补充代码,完成任务。打开右侧代码文件窗口,在。区域补充代码,完成任务。

2024-07-17 19:49:20 153

原创 章节测验---3

启动 Hadoop 服务,然后将 Linux 系统本地文件。,然后统计出该文件的行数,直接打印输出统计的结果。,然后统计出文件的行数,直接打印输出统计的结果。中读取 Linux 系统本地文件。本关任务:根据编程要求,完成任务。本关任务:根据编程要求,完成任务。上传到 HDFS 中的根目录。读取 HDFS 系统上的文件。打开右侧代码文件窗口,在。区域补充代码,完成任务。打开右侧代码文件窗口,在。区域补充代码,完成任务。

2024-07-17 19:47:53 153

原创 Spark案例剖析 - 谷歌网页排名引擎PageRank实战

工欲善其事必先利其器,大数据分析中最重要的是熟练掌握数据导入工具的使用方法。Spark SQL是Spark自带的数据库,本关你将应用Spark SQL的数据导入工具实现文本数据的导入。本关你将学习并了解PageRank算法的基本原理,并使用该算法计算A,B,C,D四个网页被访问的概率值并输出。上一关我们将网页数据导入到Spark SQL数据库中,本关你将再次利用Spark SQL语句查询。表中的数据,并返回前5条网页数据。文件中含有网页及其连接网页。

2024-07-16 20:39:29 136

原创 spark算子简单案例 - Python

知识完成 " 好友推荐 " 的程序。知识编写一个词频统计程序。

2024-07-16 20:35:27 220

原创 军用大数据 - Spark机器学习

分类器完成 坦克类型分类任务。

2024-07-16 20:34:11 109

原创 军用大数据--Spark图数据计算与分析实战

本关任务:编写一个计算出度和入度总数相同站点的小程序。// 初始化spark// 顶点属性(1L, "南马补给站"),(2L, "多贝尔补给站"),(3L, "安其补给站"),(4L, "雪山补给站"),(5L, "终极火力补给站"),(6L, "末日补给站"),(7L, "英迪补给站"),(8L, "远洋补给站")))// 各顶点间的关系数据))// 定义图结构// 计算所有出度和入度总数相同的补给站点,若出度和入度总数量相同则打印至控制台。

2024-07-16 20:32:12 170

原创 军用大数据--结构化流式数据处理

Spark Streaming 是一套优秀的实时计算框架。其良好的可扩展性、高吞吐量以及容错机制能够满足我们很多的场景应用。上一关我们介绍了如何实时获取数据,并处理数据,本关结合上一关的场景,结合 Kafka 把分析结果读出来。Spark Streaming 是一套优秀的实时计算框架。其良好的可扩展性、高吞吐量以及容错机制能够满足我们很多的场景应用。本关结合我们的应用场景,介结我们如何使用 Spark Streaming 处理数据。

2024-07-16 20:30:41 209

原创 军用大数据 - 结构化数据分析与处理

通过飞行速度统计出战斗机飞行性能排比。统计出各个研发单位研制战斗机占比。

2024-07-16 20:28:38 154

原创 电商精准营销—购买意向预测

为了完成本关任务,你需要掌握: 1.随机森林模型原理;2.网格搜索调参技巧。1.理解随机森林模型的原理,确定随机森林的树的个数;本关任务:对随机森林模型进行调参,使得模型最优。2.使用 sklearn 包搭建随机森林模型。为了完成本关任务,你需要掌握:评价模型的方法。本关任务:根据要求,建立随机森林模型。本关任务:对调参后的模型结果进行评价。

2024-07-16 20:24:30 198

原创 电商精准营销—特征工程

为了完成本关任务,你需要掌握: 1.python 对时间变量处理技巧;2.时间空间特征的处理方法。为了完成本关任务,你需要掌握: 1.类型变量的处理方法;2.如何使用 python 进行热编码。本关任务:对类别特征进行编码 ,使其能够直接应用于模型。为了完成本关任务,你需要掌握:特征选择的原理和方法。本关任务:处理时间空间特征变量,提取衍生变量。本关任务:在已有的特征中进行特征选择。

2024-07-16 20:22:21 128

原创 电商精准营销—数据探索与可视化

为了完成本关任务,你需要掌握: 1.使用 python 的 matplotlib 和 seaborn 包画饼图和密度图;为了完成本关任务,你需要掌握: 1.利用 python 的 matplotlib 画条形图和折线图;2.分析双变量之间的关系。本关任务:探索用户的购买意向与年龄、性别和用户等级之间的关系。本关任务:探索用户的购买意向与商品评论之间的关系。本关任务:通过数据可视化探索单变量的分布情况。本关任务:探索客户购买意象和时间之间的关系。在本关主要使用条形图来探索双变量之间的关系。

2024-07-16 20:19:58 113

原创 电商精准营销—数据清洗

为了完成本关任务,你需要掌握: 1.python 中数据透视表的使用方法;2.异常值检测和处理方法;3.python 处理异常值技巧。为了完成本关任务,你需要掌握: 1.缺失数据处理的方法;2.pandas 处理真实数据技巧。本关任务:使用 python3 对实例数据中的变量做缺失值处理,梳理数据分析的流程。为了完成本关任务,你需要掌握:重复值的处理方法。本关任务:对数据集的重复数据进行处理。本关任务:对数据集的异常值进行处理。

2024-07-16 20:17:29 197

原创 电商精准营销—数据预处理概述

为了完成本关任务,你需要掌握: 1.数据样本抽取的方法;2、数据清洗的技巧。本关任务:对指定样本数据进行预处理,掌握数据预处理的技巧。本关任务:对变量进行转换。

2024-07-16 20:15:18 196

原创 Hive -- 桶表

分区提供一个隔离数据和优化查询的便利方式。不过,并非所有的数据集都可形成合理的分区。对于一张表或者分区,Hive 可以进一步组织成桶,也就是更为细粒度的数据范围划分。分桶是将数据集分解成更容易管理的若干部分的另一个技术。分区针对的是数据的存储路径;分桶针对的是数据文件。---创建mydb数据库---使用mydb数据库use mydb;---创建分桶表dept_buck:根据deptno分成4个桶----创建中间表temp_dept_buck:与dept_buck表结构一致。

2024-07-16 20:11:22 193

原创 Hive -- 外部分区表

Hive 创建内部表时(默认创建内部表),会将数据移动到数据仓库指向的路径;创建外部表(需要加关键字。在删除表的时候,内部表的元数据和数据会被一起删除,而外部表只删除元数据,不删除数据。本关任务:根据相关知识内容实现 Hive 外部分区表的操作。),仅记录数据所在的路径,不对数据的位置做任何改变。

2024-07-16 20:10:27 108

原创 Hive -- 内部分区表

本关任务:根据相关知识内容实现 Hive 内部分区表的操作。

2024-07-16 20:08:28 139

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除