自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(159)
  • 资源 (1)
  • 收藏
  • 关注

原创 基于Python的北京天气数据可视化分析

【代码】基于Python的北京天气数据可视化分析。

2024-06-07 16:34:38 842

原创 python安装socketio一直安装不成功

这个目录下创建pip.ini文本写入第三方源,系统一直显示系统的pip的版本不匹配,ERROR: Could not find a version that satisfies the requirement python-socketio (from versions: none)ERROR: No matching distribution found for python-socketio

2024-01-26 22:53:46 689

原创 Hadoop技术与应用的习题

28、Region Server是Google的论文《Bigtable:一个分布式的结构化数据存储系统》中描述的BigTable的组成部分。17、Google的论文《Google File System》提到:还依赖一个高可用的、序列化的分布式锁服务组件,叫Chubby。B.GFS存储的文件都被分割成固定大小的块,每个块都会被复制到多个块服务器上(可靠性)。块的冗余度默认为3。3、GFS 存储的文件都被分割成固定大小的块,每个块都会复制到多个块服务器上(可靠性),请问默认冗余存储几份?

2023-11-23 21:36:15 2402

原创 python练习题

使用字符串“请输入您的名字:”,接着格式化打印星座对应日期信息,使用字符串“请根据如上提示选择对应编号”(例如,水瓶座请输入:1)提醒用户根据信息输入数字,最后根据用户的输入直接打印分析结果,输出结果为“名字,您好!星座的您星座分析结果:结果”。购物小票又称购物收据,是指消费者购买商品时由商场或其它商业机构给用户留存的销售凭据。BMI指数即身体健康指数,它与人的体重和身高相关,是目前国际常用的衡量人体胖瘦程度以及是否健康的一个标准。本实例要求编写代码实现根据用户输入的身高体重计算BMI指数的功能。

2023-11-23 15:10:06 663

原创 实验4.数据全量、增量、比较更新

通过“表输入”对MySQL表格的数据读入,然后通过“JavaScript代码”更新抽取数据的时间,再通过“表输入出”保存表格到MySQL数据库。1.利用Kettle的“表输入”,“表输入出”,”JavaScript代码”组件,实现数据全量更新。2.熟练掌握“JavaScript代码”,“表输入”,“表输入出”组件的使用,实现数据全量更新。Step3:配置‘字段’选项卡,获取字段名称,并设置字段的数据类型(重点,以防报错)Step1:双击‘表输入’组件,新建数据库的连接并进行测试,

2023-11-22 17:17:34 1133

原创 存储过程与触发器的练习题

完成这样的功能:输出所有学生的学号,姓名,课程编号和分数,并以学号升序、成绩降序显示。所有选修了k003的学生在student info中的数据。语句创建存储过程、执行存储过程、修改存储过程、删除存储过程的用法。表中的这个学生的相应选课成绩信息,并显示:成绩表更新成功。表进行插入、修改时,分别激活该触发器,显示表的操作信息。语句查看存储过程定义、重命名存储过程的用法。语句创建、修改、删除触发器的方法和步骤。,编写并调用该存储过程,修改课程号为。表中的所有相应成绩记录能自动删除。表中的学生记录被删除时,

2023-11-22 15:38:19 507

原创 使用kettle进行正则表达式组件日志分析

使用Kettle(Pentaho Data Integration)进行日志分析是一种常见的数据处理任务,特别是当你需要从大量的日志文件中提取和分析数据时。Kettle是一个强大的ETL工具,能够处理各种数据分析任务,包括日志分析。根据你的具体需求和日志的格式,你可以创建适合的转换来提取、转换和分析日志数据。

2023-10-24 19:35:16 2405

原创 Hadoop作业篇(一)

1. 以下哪一项不属于Hadoop可以运行的模式__C____。A. 单机(本地)模式B. 伪分布式模式C. 互联模式D. 分布式模式2. Hadoop的作者是下面哪一位___B___。A. Martin FowlerB. Doug cuttingC. Kent BeckD. Grace Hopper3. 下列哪个程序通常与 NameNode 在同一个节点启动___D__。A. TaskTrackerB. DataNodeC. SecondaryNameNodeD. Jobtracker4. HDFS 默认

2023-10-10 22:15:16 2241

原创 kettle基于快照的CDC

➢第一步将student_cdc表中的数据复制到student_cdc_sanp1表中,使 student_cdc_sanp1作为student_cdc表的第一个快照,同时将数据输出到 student_cdc_sync表中。➢第三步将student_cdc表中的数据复制到student_cdc_sanp2表中,使 student_cdc_sanp2作为student_cdc表的第二个快照。➢第二步对student_cdc中的数据进行插入、更新、删除操作。

2023-10-10 16:49:35 453

原创 python连接mysql数据库的练习

请确认你的数据库是SQLite数据库还是MySQL数据库,并根据实际情况提供正确的连接信息。这段代码首先连接到之前创建的student表所在的SQLite数据库(student.db),然后使用游标对象执行SQL语句来插入一条数据。最后,代码提交更改并关闭数据库连接。这段代码首先连接到student表所在的SQLite数据库(student.db),然后使用游标对象执行SQL查询语句来检索所有数据。这段代码首先连接到存储数据的SQLite数据库(student.db),然后使用游标对象执行SQL的。

2023-09-16 00:07:55 296

原创 大数据电信客服-数据分析(三)

我们的数据已经完整的采集到了HBase集群中,这次我们需要对采集到的数据进行分析,统计出我们想要的结果。注意,在分析的过程中,我们不一定会采取一个业务指标对应一个mapreduce-job的方式,如果情景允许,我们会采取一个mapreduce分析多个业务指标的方式来进行任务。具体何时采用哪种方式,我们后续会详细探讨。a) 用户每天主叫通话个数统计,通话时间统计。b) 用户每月通话记录统计,通话时间统计。c) 用户之间亲密关系统计。(通话次数与通话时间体现用户亲密关系)

2022-10-24 10:34:07 2961 1

原创 大数据电信客服-数据采集/消费(二)

欢迎来到数据采集模块(消费),在企业中你要清楚流式数据采集框架flume和kafka的定位是什么。我们在此需要将实时数据通过flume采集到kafka然后供给给hbase消费。适合下游数据消费者不多的情况;适合数据安全性要求不高的操作;适合与Hadoop生态圈对接的操作。适合数据下游消费众多的情况;适合数据安全性要求较高的操作(支持replication);线上数据 --> flume --> kafka --> flume(根据情景增删该流程) --> HDFS。

2022-10-23 01:50:50 1594

原创 大数据电信客服-数据生产(一)

数据量如此巨大,除了要满足用户的实时查询和展示之外,还需要定时定期的对已有数据进行离线的分析处理。例如,当日话单,月度话单,季度话单,年度话单,通话详情,通话记录等等+。此情此景,对于该模块的业务,即数据生产过程,一般并不会让你来进行操作,数据生产是一套完整且严密的体系,这样可以保证数据的鲁棒性。但是如果涉及到项目的一体化方案的设计(数据的产生、存储、分析、展示),则必须清楚每一个环节是如何处理的,包括其中每个环境可能隐藏的问题;创建随机生成通话建立时间的方法,可指定随机范围,最后生成通话建立时间,产出。

2022-10-22 11:33:13 1737

原创 安装kafka2.11

在hadoop01,hadoop02,hadoop03启动。具体创建方法在链接里面的hadoop安装的编写集群同步脚本。两台follower,一台leader。需要修改24,63,126。的全局唯一编号,不能重复。

2022-10-12 14:13:58 732

原创 我的创作纪念日

它通过一个独立线程周期性的调用NN上的一个特定接口来获取NN的健康状态。(3)Java的序列化是一个重量级序列化框架(Serializable),一个对象被序列化后,会附带很多额外的信息(各种校验信息,header,继承体系等),不便于在网络中高效传输。4)Hive:基于Hadoop的一个数据仓库工具,可以将结构化的数据档映射为一张数据库表,并提供简单的sql 查询功能,可以将sql语句转换为MapReduce任务进行运行。2)Flume:一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。

2022-10-08 23:26:32 123 1

原创 大数据日知录——大数据是什么?(一)

传统的互联网与商业数据的存储和处理主要使用关系型数据库技术,数据库企业巨头 Oracle 是这一时期的代表企业。随着大数据时代的到米,传统关系数据库在可扩展性方面的缺陷遂渐暴露出来,即使采用并行数据库集样,最多也只能管理百台左右的机器.而且这种并行数据库要求高配置的服务器才可正常运转,其管理海量数据成本之高可以想象。对于很多应用场景,尤其是互联网相关应用,并不像银行业务等对数据的一致性有很高的要求而更看重数据的高可用性以及架构的可扩展性等技术因素。因此 NoSQL 数据库应运而生,作为适应。

2022-10-07 21:42:41 711

原创 黑马旅游网-线路收藏功能(十)

根据标记,展示不同的按钮样式。

2022-10-06 01:00:00 583

原创 黑马旅游网-旅游线路详情信息功能(九)

根据id查询一个旅游线路的详细信息。

2022-10-05 17:22:23 218

原创 黑马旅游网-搜索功能实现(八)

在RouteServlet中加上防止乱码,就解决了。1.搜索框输入关键字能够检索出来。3.下面的分页能够能够跳转。2.能显示共几页几条。

2022-10-04 22:35:27 894

原创 黑马旅游网-旅游分类线路分页显示(七)

查询: select * from 表 where 1=1 and cid=?点击了不同的分类后,将来看到的旅游线路不一样的。通过分析数据库表结构,发现,旅游线路表和分类表时一个多对一的关系。查询sql: select * from tab_route where cid=5。

2022-10-03 23:25:01 573

原创 黑马旅游网-分类数据显示(六)

1. 为了减少数据库的压力,使用redis缓存分类数据。验证输入ping,PONG连接成功。连接成功redis,问题就解决了。1.redis未连接,

2022-10-03 20:56:11 1169

原创 黑马旅游网-封装BaseServlet(五)

减少servlet数量,我们再的servlet的一个功能对应一个servlet,servlet数据太多了,为了减少servlet数据,抽取一个BaseServlet,每个servlet对象数据库中的一张表,那么servlet的数量非常,也容易开发功能.修改header.html。封装后的功能是否能使用。1.邮箱激活,激活不成功。

2022-10-03 12:54:50 724

原创 黑马旅游网-用户登录和退出(四)

修改header.html,添加登录状态style="display:none;和id="span_username"代码没有报错,但是怎么都登录不上,修改了pom.xml的端口号,重新运行,就解决了。登录用session存储用户信息,当session清除,用户的登录状态就消息.实现:编写ExitServlet用于清除session即可。退出有一下划线,点击退出跳转首页如下。修改header.html。是前端网页跳转的路径写错了。

2022-10-02 20:52:34 915

原创 黑马旅游网-邮箱激活(三)

163邮箱是smtp.163.com QQ邮箱是smtp.qq.com。解决方法,在JDBCUtils的/druid.properties,去掉/解决方法,在druid.properies,连接数据库上防止乱码代码。2.注册一个用户,邮箱需要写对,不然收不到激活信息。7.在数据库中查看数据,status为Y为激活成功。邮箱地址,邮箱密码或者授权码,测试信息邮箱,6.点击登录,跳转到登录首页。2. 输入中文到数据库变成?3.跳转到这个页面成功。5.点击邮箱里面的链接。

2022-10-02 17:06:48 1450

原创 黑马旅游网-注册用户(二)

获取用户名用户名格式要求,正则表达式限制进行判断用户名是否符合用户名合法无提示用户名不合法,红色边框提示。

2022-10-01 23:09:54 815

原创 黑马旅游网-配置项目(一)

1.打开IDEA文件 ——>打开,选择项目所在路径,2.修改项目结构3.导入依赖pom。

2022-09-30 09:56:24 1223 3

原创 Flume实践案例

将commons-configuration-1.6.jar、hadoop-auth-2.7.3.jar、hadoop-common-2.7.3.jar、hadoop-hdfs-2.7.3.jar、commons-io-2.4.jar、htrace-core-3.1.0-incubating.jar拷贝到/opt/module/flume/lib文件夹下。采集源: 即是source--监控文件内容的更新: exec 'tail -F file'3.启动Flume采集命令(测试阶段下使用)

2022-09-17 09:42:30 840 1

原创 安装flume1.7.0

1.上传安装包apache-flume-1.7.0-bin.tar.gz,官网下载2.解压3.修改apache-flume-1.7.0-bin的名称为flume。

2022-09-17 08:50:05 237

原创 安装spark2.1.1

spark-2.1.1-bin-hadoop2.7.tgz,官网下载。注意:HDFS上的目录需要提前存在。

2022-09-16 22:16:59 1434

原创 安装Zookeeper3.4.10

1.修改zoo_sample.cfg名称。3.配置zoo.cfg。

2022-09-16 22:13:59 1126

原创 hadoop-2.7.3安装

6.hadoop02,hadoop03重复3-5的步骤配置就可以。1.上传hadoop-2.7.3.tar.gz到指定位置。2.hadoop02,hadoop03重复步骤配置就可以。在这里hadoop-2.7.3.tar.gz,官网下载。3.创建配置CentOS-DVD.repo。1. 配置mapred-site.xml。4.配置mapred-site.xml。在esc状态下:set nu显示行号。3.配置hadoop-env.sh。1.配置core-site.xml。2.配置hdfs-site.xml。

2022-09-16 22:11:57 1863

原创 大数据安装部署

在这里展示是vmware10的版本,官网可以下载,镜像文件:CentOS-6.8-x86_64-bin-DVD1.iso,官网下载。

2022-09-12 16:04:26 1367

原创 python字面量

字面量:代码中,被写下来的固定的值,称为字面量。

2022-09-06 13:18:19 493

原创 shell脚本的发送消息

需求:实现一个向某个用户快速发送消息的脚本,输入用户名作为第一个参数,后面直 接跟要发送的消息。脚本需要检测用户是否登录在系统中、是否打开消息功能,以及当前发 送消息是否为空。我们可以利用 Linux 自带的 mesg 和 write 工具,向其它用户发送消息。开启和关闭消息功能命令。

2022-08-21 00:55:24 678

原创 shell脚本的文本处理工具

3.只显示/etc/passwd 的第一列和第七列,以逗号分割,且在所有行前面添加列名 user, shell 在最后一行添加"dahaige,/bin/zuishuai"。cut 的工作就是“剪”,具体的说就是在文件中负责剪切数据用的。2.搜索 passwd 文件以 root 关键字开头的所有行,并输出该行的第 1 列和第 7 列, 中间以“,”号分割。一个强大的文本分析工具,把文件逐行的读入,以空格为默认分隔符将每行切片,切开 的部分再进行分析处理。(4)在 /etc/passwd 文件中切割出。

2022-08-21 00:18:28 825

原创 shell脚本的 正则表达式

正则表达式使用单个字符串来描述、匹配一系列符合某个语法规则的字符串。在很多文 本编辑器里,正则表达式通常被用来检索、替换那些符合某个模式的文本。在 Linux 中,grep, sed,awk 等文本处理工具都支持通过正则表达式进行模式匹配。

2022-08-20 21:03:22 287

原创 shell脚本的归档文件

需求:实现一个每天对指定目录归档备份的脚本,输入一个目录名称(末尾不带/), 将目录下所有文件按天归档保存,并将归档日期附加在归档文件名上,放在/root/archive 下。后面可以加上-c 选项表示归档,加上-z 选项表示同时进行压缩,得到的文件后缀名 为.tar.gz。实际生产应用中,往往需要对重要数据进行归档备份。定时装置,每天凌晨2点自动运行这个脚本。这里用到了归档命令:tar。

2022-08-20 19:58:48 361

原创 shell脚本的函数

1)基本语法{]}2)经验技巧(1)必须在调用函数地方之前,先声明函数,shell 脚本是逐行运行。不会像其它语言一 样先编译。(2)函数返回值,只能通过$?系统变量获得,可以显示加:return 返回,如果不加,将 以最后一条命令运行结果,作为返回值。return 后跟数值 n(0-255)3)案例实操计算两个输入参数的和。第一种方法,相加的超过255会报错#!/bin/bashecho "和:"$s}read -p "请输入第一个整数:" a。

2022-08-20 15:47:58 663

原创 shell脚本的read 读取控制台输入

t:指定读取值时等待的时间(秒)如果-t 不加表示一直等待。提示 10 秒内,读取控制台输入的姓名。read (选项) (参数)-p:指定读取值时的提示符;变量:指定读取值的变量名。

2022-08-20 14:35:08 832

原创 shell脚本的流程控制

当它们被双引号“”包含时,$*会将所有的参数作为一个整体,以“$1 $2 …$@会将各个参数分开,以“$1” “$2”…$*和$@都表示传递给函数或脚本的所有参数,不被双引号“”包含时,都以$1 $2 …(1)case 行尾必须为单词“in”,每一个模式匹配必须以右括号“)”结束。(3)最后的“*)”表示默认模式,相当于 java 中的 default。加双引号,两种输出结区别,一种有换行,一种没有换行。*) 如果变量的值都不是以上的值,则执行此程序。如果变量的值等于值 1,则执行程序 1。

2022-08-20 14:22:52 1026

Linux综合运维思维导图

硬盘管理 常规使用 所有设备在linux上所生成的文件,都存放在/dev/下 服务器识别硬盘(硬件在bios中查询配置,linux操作系统上可以通过lsblk确认) 常规硬盘 NAS设备(硬件raid设备) 硬盘常规是热插拔 分区 fdisk只支持MBR/MSDOS模式 特点 最多四个主分区,因为分区表为64字节,一个主分区占16字节,拓展分区也占用主分区编号,更多地分区只能基于拓展分区划分逻辑分区 fdisk 硬盘文件 检查分区表信息 fdisk -l 硬盘设备 用来输出硬盘基本信息及分区列表 分区操作 进入fdisk交互界面 fdisk 磁盘设备 常用的交互指令 m:查看帮助信息 p:列出分区信息 n:新建分区 d:删除分区 t:变更分区类型 w:保存更改并退出 q:放弃更改并退出 parted 特点 最多128个主分区 parted 硬盘文件

2022-10-04

Linux面试题的汇总

什么是Linux Linux是一套免费使用和自由传播的类Unix操作系统,是一个基于POSIX和Unix的多用户、多任务、支持 多线程和多CPU的操作系统。它能运行主要的Unix工具软件、应用程序和网络协议。它支持32位和64位 硬件。Linux继承了Unix以网络为核心的设计思想,是一个性能稳定的多用户网络操作系统。 什么是 Linux 内核? Linux 系统的核心是内核。内核控制着计算机系统上的所有硬件和软件,在必要时分配硬件,并根据需 要执行软件。 1. 系统内存管理 2. 应用程序管理 3. 硬件设备管理 4. 文件系统管理 Linux的基本组件是什么? 就像任何其他典型的操作系统一样,Linux拥有所有这些组件:内核,shell和GUI,系统实用程序和应用 程序。Linux比其他操作系统更具优势的是每个方面都附带其他功能,所有代码都可以免费下载。 Linux 开机启动过程? 1、主机加电自检,加载 BIOS 硬件信息。 2、读取 MBR 的引导文件(GRUB、LILO)。 3、引导 Linux 内核。 4、运行第一个进程 init (进程号永远为 1 )。 5、进入相应的运

2022-10-04

mapduce日志分析数据

mapduce日志分析数据

2022-04-16

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除