自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(25)
  • 收藏
  • 关注

原创 什么是spark,spark运行模式,local模式,使用spark-shell,Standalone模式,Yarn模式,案例实操WordCount程序

本章介绍 Spark 的一些基本认识.1.1Spark 是一个快速(基于内存), 通用, 可扩展的集群计算引擎并且 Spark 目前已经成为 Apache 最活跃的开源项目, 有超过 1000 个活跃的贡献者.历史2009 年,Spark 诞生于 UC Berkeley(加州大学伯克利分校, CAL) 的 AMP 实验室, 项目采用 Scala 编程语言编写.2010 年, Spark 正式对外开源2013 年 6 月, 进入 Apache 孵化器。

2023-08-07 11:44:49 797

原创 电商推荐系统(项目架构设计)数据加载准备,实时推荐算法MongoDB,Redis,Spark,Zookeeper,Flume-ng,Kafka工具环境搭建

然后,将u 最近的K 个评分中与商品q 相似的、且本身评分较高(>=3)的商品个数记为 incount,计算lgmax{incount,1}作为商品 q 的“增强因子”,意义在于商品q 与u 的最近K 个评分中的n 个高评分(>=3)商品相似,则商品q 的优先级被增加lgmax{incount,1}。并且由于算法本身的使用的是评分表,用户本次评分后只更新了总评分表中的一项,使得算法运行后的推荐结果与用户本次评分之前的推荐结果基本没有多少差别,从而给用户一种推荐结果一直没变化的感觉,很影响用户体验。

2023-08-03 20:38:50 1217 1

转载 美国疫情数据统计分析

【MapReduce】美国新冠疫情案例集 (MR与数据库交互)

2023-08-03 20:02:09 167

原创 开源大数据案例(第1章 通话记录数据分析)思路,操作,及执行ct-common

例如,当日话单,月度话单,季度话单,年度话单,通话详情,通话记录等等+。我们的数据已经完整的采集到了HBase集群中,这次我们需要对采集到的数据进行分析,统计出我们想要的结果。注意,在分析的过程中,我们不一定会采取一个业务指标对应一个mapreduce-job的方式,如果情景允许,我们会采取一个mapreduce分析多个业务指标的方式来进行任务。此情此景,对于该模块的业务,即数据生产过程,一般并不会让你来进行操作,数据生产是一套完整且严密的体系,这样可以保证数据的鲁棒性。数据结构,数据内容可能出现的问题。

2023-08-03 19:55:57 2217

原创 什么是Spark,spark Core,Spark SQL,Scala概述,Scala运算符,程序流程控制,Scala循环,Scala集合,集合中常用元素操作,Scala模式匹配,Scala进阶

在Spark基础-实验列表下,单击Spark基础课程实验一:Spark简介右侧的【开始实验】按钮,具体如下图红色圈出部分:自动登录到私有云集群操作环境下,具体如下图所示:提升执行性能Spark SQL在Spark2.0 可以执行所有99 TPC-DS 查询,能够执行SQL:2003标准的新功能,支持子查询。SparkSession:新增SparkSession,同时具备了SQLContext与HiveContext功能。

2023-07-21 20:50:48 1760 2

原创 Hive、Hadoop完全分布式安装,基本SQL,基本SQL,基本表结构,数据类型,函数,窗口函数,jion,查询和排序,beeline,文件格式及基本架构汇总

Hive简介一、概述二、Hive和数据库的比较三、特点。

2023-07-20 19:58:55 556

原创 Hbase简介,安装步骤,基本构架,HRegionServer,Compaction机制,基本流程,设计与优化汇总

简介一、概述二、基本概念三、基本命令命令解释help获取命令帮助信息查看当前HBase在执行的任务status查看HBase的运行状态version查看HBase的版本whoami查看HBase的当前用户或者建立一个person表,包含3个列族:basic,info,other在person表中添加一个行键为p1的数据,向basic列族的name列中添加数据获取指定行键的数据或者获取指定行键指定列族的数据或者获取指定行键多列族的数据或者。

2023-07-20 19:43:14 400

原创 Zookeeper伪分布式安装,zookeeper特点,命令,节点信息,节点类型,完全分布式安装,选举机制,ZAB协议

1.Zookeeper底层是一个树状结构,根节点是/2.Zookeeper中每一个节点称之为Znode节点,因此这棵树称之为Znode树3.Zookeeper自带了一个子节点/zookeeper4.Zookeeper在创建节点的时候可以携带数据也可以不携带(早版本的zookeeper中,创建节点必须携带数据),数据可以是对节点的描述,或者可以是一些配置信息5.在Zookeeper中不存在相对路径,所有的路径都必须从根节点开始计算

2023-07-13 20:12:11 343 1

原创 Linux 06虚拟机的克隆

开机前修改mac地址(注意:如果是动态生成IP地址,请在启动前先启动被克隆的虚拟机,以保证原来虚拟机的ip不会变,否则原来虚拟机ip会变,克隆后的虚拟机ip是原来的虚拟机ip)点击“编辑虚拟机设置”,选择“网络适配器”,点击右下角“高级”然后下边就是mac地址,这个mac地址和被克隆的是一样的,我们点击“生成”,重新生成一个新的mac地址。以上就完成了虚拟机的克隆,值得注意的是,我们在修改ifcfg-ens33 文件的时候,只需要修改一个ip地址和UUID即可,保证和克隆的不冲突即可。

2023-07-13 19:39:26 102 1

原创 Linux 04打包、压缩、命令执行判断、rpm、yum、sed及其他

需要定期去“更新”yum服务器上的rpm “清单” ,然后把“清单”下载保存到yum自己的cache里面,根据/etc/yum.conf里配置(默认是在/var/cache/yum/$basearch/$releasever下、即/var/cache/yum/x86_64/6),每次调用yum安装包的时候都会去这个cache目录下去找“清单”,根据“清单”里的rpm包描述从而来确定安装包的名字,版本号,所需要的依赖包等,如果rpm包的cache不存在,就去yum服务器下载rpm包安装。

2023-07-13 19:33:14 327 1

原创 Linux 03网络、桥接、远程拷贝、免密登录、进程、监控、防火墙

(实现网络代理的功能,在公共网络上,上网的节点是路由器,并不是电脑。)将局域网中的数据转发至公共网络(外网)。早期上网的方式是,通过电话线插入电脑上,进行拨号上网。此方式的缺点:1、电话一直占线。2、有可能电话进来,掉线。通信公司发现这样的缺点之后,出现了一个新的设备,这个设备的功能可以将电话线路一分为二。分别实现电话、上网的功能。调制解调器(猫)。随着社会的发展,发现这种方式又不能满足日常的上网需求。一个猫只有一个接口,无法满足多台设备上网的需求的。将多台设备接入交换,交换机的其中一个

2023-07-12 16:50:42 242 1

原创 Linux 用户、用户组、权限

Linux系统是一个多用户多任务的分时操作系统,任何一个要使用系统资源的用户,都必须首先向系统管理员申请一个账号,然后以这个账号的身份进入系统。在Linux系统对于权限的设定非常的敏感,如果某个用户执行一个操作时,提示权限不足,那么根据Linux系统的权限设定的思想(没有权限绝对不会睁一只眼闭一只眼),就能够判断出该用户不具备此文件的执行权限。book2:所有者和属组为root用户和A组,权限为root用户可读可写可执行,A组的可读可执行不可写,其他人没有权限。sudo可以限制用户执行部分root的权限。

2023-07-12 16:22:06 1667 1

原创 Linux概述、安装、级别目录相关命令

swappiness=0的时候表示最大限度使用物理内存 ,然后才是 swap空间,swappiness=100的时候表示积极的使用swap分区,并且把内存上的数据及时的搬运到swap空间里面。2、如果是新安装的Vmware,那么第一次创建虚拟机时,默认选择的是"典型",由于咱们都是高级人员,所以选择"自定义"安装的方式,可以通过键盘的Alt+C快速选择到"自定义"。注:如果VMware版本高于12,会出现Linux不同的版本,选择的时候注意下,截图中的对应版本是"CentOS 7 64位"

2023-07-12 16:01:03 171 1

原创 MySQL基础课堂笔记 数据库的设计(多表之间的关系,分类,实现关系,案例)数据库的备份和还原,运算符,函数,事务,DCL

1.多表之间的关系1.分类:1.一对一了解如:人和身份证分析:一个人只有一个身份证,一个身份证只能对应一个人2.一对多多对一如:部门和员工分析:一个部门有多个员工,一个员工只能对应一个部门3.多对多:如:学生和课程分析:一个学生可以选择很多门课程,一个课程也可以被很多学生选择2.实现关系:1.一对多多对一如:部门和员工实现方式:在多的一方建立外键,指向一的一方的主键。2.多对多:如:学生和课程实现方式:多对多关系实现需要借助第三张中间表。

2023-05-22 00:44:41 315

原创 Python 基础(字符串类型,数据类型转换,运算符,位运算符,运算符的优先级,基本的输入和输出,选择语句,序列,序列的乘法)

字符串的定义:连续的字符序列,可以是计算机所能表示的一切字符的集合字符串定义格式:1.单引号: 定义一行字符串,即使使用续行字符\或者()包围2.双引号: 定义一行字符串,即使使用续行字符\或者()包围3.三单引号、三双引号:可以定义多行字符串,且会保留其格式注意:1.字符串首尾引号形式必须一致2.引号可以嵌套,但是三引号尾部不要连接单个形式一致的引号转义字符:\:续行符\n:换行符\0:NUL = 空 空\t:水平制表符,用于横向跳到下一制表位。

2023-05-16 08:59:37 262

原创 MySQL基础课堂笔记 DQL:查询语句

select* --先确定查询主体from table_name ----查询用到的所有表名where condition --两个表的关联条件group by col --分组条件having 聚合 --筛选满足条件的子句order by col --用于对结果集进行排序limit [start_offset,] --分页查询(限制查询结果的数量) row_count; --用来限定后面的sql在返回指定的行数之后便停止处理

2023-04-12 15:17:23 248

原创 数据可视化echarts图表五部曲

【代码】数据可视化echarts图表五部曲。

2023-04-05 19:53:43 205

原创 MySql的15个练习题

1. 查询"01"课程比"02"课程成绩高的学生的信息及课程分数2. 查询"01"课程比"02"课程成绩低的学生的信息及课程分数3. 查询平均成绩大于等于60分的同学的学生编号和学生姓名和平均成绩4. 查询平均成绩小于60分的同学的学生编号和学生姓名和平均成绩 – (包括有成绩的和无成绩的)5. 查询所有同学的学生编号、学生姓名、选课总数、所有课程的总成绩6. 查询"李"姓老师的数量7. 查询学过"张三"老师授课的同学的信息8. 查询没学过"张三"老师授课的同学的信息9. 查询学过编号为"0

2023-04-05 19:41:20 124

原创 Linux网络操作系统项目实用教程题目汇总

目录单选汇总项目一 认识Linux网络操作系统与安装(1)简述 Linux 的版本以及特性?(2)如何安装 Centos 7 操作系统?(3)用户如何进行图形化与文本模式登录、重启、关机与注销?“(4)如何进行终端界面切换?项目二 Linux基础操作命令-使用Shell命令(1)什么是Shell?它的功能是什么?(2)列举Linux下的主要目录,并简述其主要作用。(3)more和less命令有何区别?(4)举例说明压缩/解压缩的常用命令?(5)显示文件内容的常用命令有哪些,简述其特点?(6)Vim编辑器的基

2023-01-25 22:48:00 9977

原创 Linux系统管理 5 用户和组管理

一、什么是用户在RHEL系统中,每个用户都拥有唯一的标识符,称为用户ID(UID)。用户的权限可以被定义为普通用户或超级用户(root用户)。系统的这种安全机制有效的防止了普通用户对系统的破坏。在RHEL中可以利用用户配置文件,以及用户查询和管理的控制工具来进行用户管理,用户管理主要通过修改用户配置文件完成。

2022-11-09 10:38:35 511

原创 Linux系统管理 4 Shell的基本应用

一、Shell命令概述1.Shell 简介Shell是Linux的一个特殊程序,也是内核与用户的接口,它还是命令语言、命令解释程序及程序设计语言的统称。Shell是一个命令语言解释器,它拥有内置的Shell命令集,Shell也被系统中其他应用程序所调用。2.常用的Shell命令1.目录的创建与删除命令(1)mkdir命令格式:mkdir [选项] 目录功能:创建目录-m :创建目录的同时设置目录访问权限- p : 一次性创建多级项目(2)mkdir命令。

2022-10-29 22:33:09 610

原创 大数据分析与应用(中级) 数据预处理与特征工程

数据预处理是对获取的数据进行加工整理,使满足数据分析的需求,就需要用到数据预处理技术。数据预处理是对获取的数据进行加工整理,使满足数据分析的需求,保证了后期数据分析工作的质量和效率。该项工作包括数据抽样、数据标准化及归一化、数据质量提升与数据清洗。基于预处理后的数据从数据分析的需求出发,构建一个描述数据的特征模型,为后续的数据分析做好准备。 从本质上来说,特征工程是一项工程活动,即通过一系列的方法和操作流程,最大限度地从原始数据中提取有用、有意义的特征以供数据分析算法和模型使用,其直接影响了数据分析的

2022-10-27 16:28:20 533

原创 大数据分析与应用(中级) 数据挖掘概念及流程

2.数据挖掘的流程(1)数据挖掘是一个以数据为中心的,循序渐进的,螺旋式的数据探索过程。数据挖掘涉及业务理解、数据理解、数据准备、建立模型、方案评估、方案实施等多个阶段。(2)数据挖掘是各种分析方法的集合。(3)数据挖掘具有分析海量数据的能力。(4)数据挖掘的最终目的是辅助决策。3.如何进行数据预处理4.无监督学习和有监督学习有何区别?

2022-10-25 15:01:11 2230

原创 大数据分析与应用(中级) 大数据分析概述

1.什么是大数据?1.什么是大数据?大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和数据处理的数据集合,是需要新处理模式才能具有更强的决策力,洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。2.大数据的特征4V3.大数据的数据结构。

2022-10-23 20:56:42 1110

原创 大数据分析与应用(中级) 大数据分析平台

DataWorks 是基于MaxCompute计算引擎的一站式开发工场,帮助企业快速完成数据集成、开发、治理、质量、安全等全套数据研发工作。(1)拥有全面托管的调度(2)支持数据转化与同步(3)可视化开发(4)全流程监控Quick BI阿里云旗下产品,是一个基于云计算并致力于大数据高效分析与展现的轻量级自助商业智能工具服务平台。Quick BI通过对数据源的连接和数据集的创建。对数据进行及时的分析与查询,通过电子表格或仪表板功能,以拖拽的方式进行数据的可视化呈现。

2022-10-22 21:36:57 1395

假条.vbs

假条.vbs

2022-12-16

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除