- 博客(23)
- 收藏
- 关注
原创 C++stl用法
/ 构造初始100行,不指定列数的二维数组 vector<vector<int>> mat(100, vector<int> (666, -1)) // 构造初始100行,初始666列的二维数组,初值为-1。// 构造初始长100的int数组,初值为1。.top//取堆顶(只可访问堆顶元素,只可修改堆顶元素)
2025-02-16 15:57:56
869
原创 实战:网站流量日志数据分析系统
模拟数据来源Maven Java Java jar jar Flume采集数据Maven Map MapReduce jar jar jar weblog_dwweblog_dwsweblog_dwmweblog_pv_dwdweblog_avguv_dwd安装、启动与配置FineBI实现数据可视化。
2025-02-14 00:00:00
236
1
原创 Sqoop数据迁移
复制hive的hive-common-3.1.3.jar到sqoop的lib下。导入sqoop_db.sql到hadoop3的/export/data目录下。实现基于append模式的增量导入。四、mysql过滤导入hdfs。三、mysql导入hive。登录mysql创建数据库。五sqoop数据的导出。1.创建表用于存放数据。
2025-02-11 05:00:00
157
原创 HDFS日志采集
启动高可用集群,确保hadoop1是active状态。同步hadoop和flume的jar包。在hadoop2和hadoop3配置。启动三个hadoop的agent。此时三个hadoop状态。
2025-02-10 15:15:00
843
原创 Azkaban工作流管理
1)进入azkaban主界面2)上传wordcount.Zip3)工作流Flow submitted提示框4)wordcount的详情界面5)执行工作流后再跳转wordcount工作流的详情界面6)查看词频统计的结果1)hive文件详情2)执行工作流hive3)跳转查看hive工作流的详情信息4)查看hive工作流的job任务列表5)查看job任务hive的日志信息。
2025-02-09 16:03:12
305
原创 Hive数据操作
在hadoop3中启动metastore服务。新开Hadoop3启动server2。hadoop2与3联通。1)通过加载文件实现。2)通过插入数据实现。
2025-02-09 15:48:53
190
原创 部署Hadoop高可用集群
4.查看hadoop版本,验证系统环境变量是否修改成功。14.查看ResourceManager状态信息。8.刷新配置,启动Hadoop高可用集群。12.启动YARN后查看jps。13.查看NameNode状态。6.分发Hadoop安装目录。2.解压并安装Hadoop。9.同步NameNode。(切换后显示无法访问)(切换后显示无法访问)3.修改系统环境变量。7.分发系统环境变量。10.格式化ZKFC。
2025-02-06 00:45:00
212
原创 ZooKeeper分布式协调服务
将zookeeper安装包上传至虚拟机hadoop1的/export/software目录。二、zookeeper的java api操作。启动zookeeper集。修改zoo.cfg文件。分发系统环境变量文件。
2025-02-05 04:00:00
244
原创 WordCount
利用mobaXterm把生成的HadoopDemo-1.0-SNAPSHOT.jar文件上传到hadoop1。把任意文本文件,比如word.txt,(注意:文件内容需要有单词)上传到/wordcount/input下。打开浏览器,系统自动生成/wordcount/output文件夹。在hadoop1结点执行。
2025-02-02 10:32:06
238
原创 HDFS的Java API操作
配置案例环境并添加Maven库dependencies在网页上创建HDF的/testfile目录创建HDFS_CURD,输入代码配置环境4. cmd中查看Hadoop版本信息,如果出现问题,需要修改hadoop-3.3.0中的hadoop-env.cmd,将jdk位置更换即可5.运行HDFS.CURD类查看HDFS下载到本地文件系统的文件查看HDFS的目录
2025-02-02 09:00:00
265
原创 HDFS的Shell操作
(1)在hadoop1的/export/data目录下将已经准备好的uploadHDFS文件拖入。(4)执行命令运行脚本文件uploadHDFS.sh。(8)编辑crontab文件,配置定时任务。验证hadoop日志文件是否上传成功。(5)检查是否安装crontab。(9)查看当前指定的定时任务。(6)启动crontab。(7)添加可执行文件。
2025-02-01 17:21:29
202
原创 数据分析之多表合并
left_index− 如果为True,则使用左侧数据框中的索引(行标签)作为其连接键。python的Pandas库为数据合并操作提供了多种合并方法,如merge()、join()和concat()等方法。how − “left”、“right”、“outer”、“inner”中的一个。关键技术:请注意on='subject_id',how='left'。关键技术:请注意on='subject_id',how='right'。关键技术:请注意on='subject_id',how=’outer’。
2024-10-06 11:06:06
581
原创 数据分析之数据选择
正整数用于从数组的开头开始索引元素(索引从0开始),而负整数用于从数组的结尾开始索引元素,其中最后一个元素的索引是-1,第二个到最后一个元素的索引是-2。一维数组的索引和列表的索引几乎是相同的,二维数组的索引则有很大不同。通过⼀个布尔数组来索引目标数组,以此找出与布尔数组中值为True的对应的目标数组中的数据。需要注意的是,布尔数组的长度必须与目标数组对应的轴的长度⼀致。二维数组的索引格式是[a:b,m:n], 逗号前选择行,逗号后选择列。选择索引从m开始,以n−1结束的元素(m和n都是整数)
2024-10-06 11:04:57
777
原创 数据分析之数据预处理
在做数据分析时,常常需要了解数据元素的特征,describe()函数可以用于描述数据统计量特征,其返回值count表示、mean表示数据的平均值、std表示数据的标准差、min表示数据的最小值、max表示数据的最大值、25%、50%、75%分别表示数据的一分位、二分位、三分位数。对于数据中缺失值的处理,除了进行删除操作外,还可以进行替换和填充操作,如均值填补法,近邻填补法,插值填补法,等等。在本案例中,可以将fillna()方法的method参数设置为bfill,来使用缺失值后面(下边)的数据进行填充。
2024-10-03 08:45:56
1214
原创 数据分析概述之数据的导入与导出
将sales.xlsx文件中的前十行数据,导出到sales_new.xlsx文件中名为df1的sheet页中,将sales.xlsx文件中的后五行数据导出到sales_new.xlsx文件中名为df2的sheet页中。在该例中,首先通过pandas库的read_csv方法导入sales.csv文件的前10行数据,然后使用pandas库的to_csv方法将导入的数据输出为sales_new.csv文件。Pandas模块的read_json方法导入JSON数据,其中的参数为JSON文件的路径。
2024-10-02 17:04:41
879
原创 数据分析概述之基本
它具有各种分类,回归和聚类算法,包括支持向量机,随机森林,梯度提升,k均值和DBSCAN,并且旨在与Python数值科学库NumPy和SciPy联合使用。在numpy模块中,除了arrange方法生成数组外,还可以使用np.zeros((m,n))方法生成m行,n列的0值数组;使用DataFrame类时可以调用其shape,info,index,column,values等方法返回其对应的属性。调用DataFrame对象的info方法,可以获得其信息概述,包括行索引,列索引,非空数据个数和数据类型信息。
2024-09-29 18:14:46
650
原创 python笔记之字符串
find():查询某个子串是否包含在这个字符串中,如果再返回这个子串开始的位置下标,否则返回-1。三引号字符串支持换行,比如说"""I know that"""语法:字符串序列.count(子串,开始位置下标,位置结束下标)语法:字符串序列.replace(旧子串,新子串,替换次数)如果开始位置和结束位置是负的,就倒着来,最后一个是-1。print(变量名.find('青岛‘,10,19)不可变类型指的是变量值改变的时候,id的内存地址改变。不可变类型:整形,浮点型,字符串,元组。
2023-09-13 22:16:24
120
原创 python笔记之python基础
在Python中,续行符号默认是反斜杠(\),在语法上表示该行未结束,在下一行继续编写代码。输入的内容默认是字符串形式,不能像上边年龄例中进行运算,如果要进行运算,要在前边加int(),变成int(intput(“请输入你的年龄:”)在Python中,续行符号必须放在当前行的末尾,不能放在下一行的开头。与print(“你好”,“中国”,sep=“”)等价 ,sep后边的引号内可以加其他符号,比如~,则你好与中国之间就会有~print(“你好”,“中国”)则会显示你好 中国,用空格来连接。
2023-09-01 21:50:29
355
1
原创 java笔记之进制
规则:将该数不断除以 16,直到商为 0 为止,然后将每步得到的余数倒过来,就是对应的十六进制。方法:将该数不断除以 8,直到商为 0 为止,然后将每步得到的余数倒过来,就是对应的八进制。0b1011=1*(1-1)次方+1*2的1次方+0*2的2次方+1*2的3次方=11。方法:从最低位(右边)开始,将每个位的数提取出来,乘以2的(位数-1)次方,然后求和。方法:从最低位(右边)开始,将每个位数提出来,乘16的(位数-1)次方,然后求和。规则:将八进制数每 1 位,转成对应的一个 3 位的二进制数即可。
2023-09-01 21:49:58
136
原创 java笔记之运算符
包括算术运算符、赋值运算符、关系运算符、逻辑运算符 、位运算符(需要二进制基础)、三元运算符算术运算符前++ 先运算后赋值:a=2先进行运算加一得出a=3,再把3赋给b后++ 先赋值后运算:a=2先赋值给b,再加一得3前--和后--同理字符串相加用双引号即可关系运算符逻辑运算符a&b 逻辑与 a&&b短路与同时为true则为true反之为false使用区别:&&:如果第一个条件是false,则不会去判断第二个条件,最终结果直接为false,效率高。
2023-09-01 21:49:20
108
1
原创 java笔记之变量
不同变量占据空间不同,整数类型包括byte 1字节 ,short 2,int 4, long 8;浮点数类型包括float 4,double 8字节;字符型包括char 2字节;布尔型boolean 1字节,存放true ,false;(附图)整数类型在java中,默认的整数类型int;
2023-09-01 21:47:50
132
2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人