自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 Linux基础-网络-命令-克隆-快照

删除70-persistent-net.rules文件:(本身有一个eth,需要把eth0删掉,如果不删的话,当前虚拟机克隆出的新的虚拟机会多出一个网络设备eth1,需要手动配置)核心:内核,内核上控制着计算机系统上的所有硬件和软件,在必要时分配硬件,并根据需要执行软件。Xftp上传文件:yum install lrzsy -y (rz上传,sz下载)系统还原:想还原到哪个点就还原到哪个点,快照点进行系统切换。缺点:如果母机损坏,那么克隆机也会损坏,安全性低。---xshell和Xftp。

2023-07-18 12:11:07 118 1

原创 【无标题】大数据开发基础启蒙点

3.hive·:基于Hadoop的一个数据仓库,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询,可以将sql语句转换为Map Reduce任务进行运行(熟知sql编写)用户将数据提交到数据库中——>通过分词控制器将对应的语句分词——>将其权重和分词结果存入数据——>用户进行搜索时,根据权重将结果排名,打分,再将返回结果呈现给用户。8.spark:专门处理大规模数据的计算引擎,不需要读写HDFS,适用于数据挖掘与机器学习等需要迭代的Map Reduce的算法。

2023-07-18 12:02:40 43 1

原创 Spark SQL 基本操作

将 JSON 格式数据复制到 Linux 系统中,保存文件。为 JSON 文件创建 DataFrame,并写出 Python 语句完成查询操作。(8)查询所有记录的name列,并为其取别名为username;(3)查询所有数据,打印时去除id字段;(2)查询所有数据,并去除重复的数据;(4)筛选出age>30的记录;(6)将数据按name升序排列;(10)查询年龄age的最小值。(9)查询年龄age的平均值;(5)将数据按age分组;(7)取出前3行数据;(1)查询所有数据;

2023-07-17 13:10:50 258 1

原创 国民经济数据分析与可视化

plt.plot(GDP_all.index, GDP_all.values, label='总值',color='ForestGreen')plt.plot(GDP_avg.index, GDP_avg.values, label='人均生产总值',color='blue')['年份','一季度(亿元)','二季度(亿元)','三季度(亿元)','四季度(亿元)']plt.ylabel('GDP(亿元)')loc[:, '人均GDP(元/人)']loc[:, 'GDP(亿元)']

2023-07-17 12:52:14 233 1

原创 数据仓库分层及构建工具

简单来讲,我们可以理解为:ODS层存放的是接入的原始数据,DW层是存放我们要重点设计的数据仓库中间层数据,APP是面向业务定制的应用数据。也称为细节层,DW 层的数据应该是一致的、准确的、干净的数据,即对源系统数据进行了清洗(去除了杂质)后的数据。大多数情况下,我们完成的数据体系是依赖复杂、层级混乱的,因此,我们需要一套行之有效的数据组织和管理方法来让我们的数据体系更有序,这就是谈到的数据分层。为临时存储层,是接口数据的临时存储区域,为后一步的数据处理做准备。根据报表、专题分析的需求而计算生成的数据。

2023-07-17 12:15:17 133 1

原创 数仓建模与数据采集 区别

通常从企业整体出发去建数据仓库比较困难,所涉及到的业务及分析需求比较多,所以提出数据集市的概念,可以先从某个部门开始建设数据仓库,这样效率就比较高。数据集市则会在数据仓库的基础上进行数据聚合,这些聚合后的数据就会直接用于部门业务分析。从范围上来讲它属于数据仓库的子集,比如:销售部门的数据集市只有销售主题。比如分为:销售主题、客户主题、产品主题等。数据仓库是针对企业整体分析数据的集合。数据集市是针对部门级别分析的数据集合。数据仓库通常包括粒度较细的数据明细。数据仓库和数据集市具有什么区别?

2023-07-17 12:09:11 826 1

原创 软件项目管理-成本控制管理

你被指定负责一个软件项目,其中有4部分,项目总预算为53000, A任务为26000, B任务为12000, C任务为10000, D任务为5000, 截止到5月31日,A任务已经全部完成,B任务过半,C任务刚开始,D任务还没有开始。【2】解释计算得出的CPI,SPI的值的含义,并说明如果出现与预期进度不一致的情况,采取点应对措施。下表显示了截止到5月31日的计划成本和实际花费,采用50/50规则。【1】计算截止到5月31日的CV,SV,CPI,SPI?调整进度偏差,加大资源投入,重新调整、分配资源。

2023-07-17 12:00:39 484 1

原创 软件项目管理-个性化推荐购物网站

2)用户注册身份验证:连接数据库,以输入的“用户名”数据为查询条件来查看输入用户名是否已存在,如果用户名未注册,则提示注册成功并转到登录页进行登录,如果用户已注册,则给出用户已存在提示并重新注册。主要展示用户已购买的商品,包括商品的信息、价格、数量,当然用户可以对其中商品进行增加、减少、删除操作,最后,用户可选择对其中商品进行结算,选择结算后,会提示相应的付款金额。系统具有两种推荐功能,其一是根据用户浏览记录进行商品推荐(推荐算法),其二是根据用户已购买商品的关联商品进行推荐。系统处理购物单表插入定单表。

2023-07-17 11:54:44 159 1

原创 大数据处理项目实施全周期中硬件设备的资源利用情况、耗材处置方案和安全防范措施,分析硬件运行效率和对环境影响

提升了集群存储与计算能力,优化整合大数据平台基础组件,升级大数据组件版本,提升集群运行效率,通过完善Spark实时计算框架,优化平台数据处理引擎,提升应用数据计算处理效率,统一并整合大数据各基础组件模块至大数据门户,构建数据可视化工具,整合并优化数据展示工具,基于自定义报表与图形化方式优化大数据展示能力,提供可配置动态拖拽的数据可视化引擎以及加挖掘组件能力,支持Python数据挖掘能力与建模,优化调度能力,完善大数据平台与传统关系型数据库处理能力的串联调度引擎,实现数据处理流程的统一。

2023-07-17 11:50:04 65 1

原创 大数据处理项目实施全周期中硬件设备的资源利用情况、耗材处置方案和安全防范措施,分析硬件运行效率和对环境影响

提升了集群存储与计算能力,优化整合大数据平台基础组件,升级大数据组件版本,提升集群运行效率,通过完善Spark实时计算框架,优化平台数据处理引擎,提升应用数据计算处理效率,统一并整合大数据各基础组件模块至大数据门户,构建数据可视化工具,整合并优化数据展示工具,基于自定义报表与图形化方式优化大数据展示能力,提供可配置动态拖拽的数据可视化引擎以及加挖掘组件能力,支持Python数据挖掘能力与建模,优化调度能力,完善大数据平台与传统关系型数据库处理能力的串联调度引擎,实现数据处理流程的统一。

2023-07-17 11:40:35 130 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除