自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(99)
  • 资源 (11)
  • 问答 (1)
  • 收藏
  • 关注

原创 大数据项目之业务数据采集(二)

业务数据采集平台模型搭建1、业务采集业务数据:与企业核心业务相关的业务,存放在MySQL数据库中,需要将MySQL中的数据采集到hdfs中。方案选择1、数据传输:sqoop优势:1、sqoop使用在业务场景,使用与数据导入方式是RDMS和HDFS互相导入2、批处理场景!在非实时的项目中,第二天导入数据,所以不需要流式处理,sqoop通过启动mapreduce且只有map,可以快速的将数据导入到HDFS3、开源免费2、数据导入方式一、全量每天需要存一份完整数据,数据量不大,有更

2021-02-25 09:56:46 765 2

原创 hadoop集群配置

(1)基本语法ssh另一台电脑的ip地址

2020-12-14 19:37:39 89 1

原创 按区间反转文章片段

例如输入字符串 “I am a developer.”,区间[0,3]则输出 “developer. a am I”。输入一个英文文章片段,翻转指定区间的单词顺序,标点符号和普通字母一样处理。反转后的英文文章片段,所有单词之间以一个半角空格分割进行输出。第二个参数为反转起始单词下标,下标从0开始。2、注意end的大小可能超过字符串长度。第一个参数为英文文章内容即英文字符串。1、注意输入字符串中前后的空格。第三个参数为结束单词下标,使用换行隔开三个参数。

2023-10-24 22:50:14 163

原创 字符串划分

给定一个小写字母组成的字符串s,请找出字符串中两个不同位置的字符作为分割点,使得字符串分成的三个连续子串且子串权重相等,注意子串不包含分割点。若能找到满足条件的两个分割点,请输出这两个分割点在字符串中的位置下标,若不能找到满足条件的分割点请返回0,0。输入为一个字符串,字符串由a~z,26个小写字符组成,5

2023-10-24 22:25:46 180

原创 IPv4地址转换成整数

存在一种虚拟IPv4地址,由4小节组成,每节的范围为0-255,以#号间隔,虚拟IPv4地址可以转换为一个32位的整数,例如:128#0#255#255,转换为32位整数的结果为2147549183(0x8000FFFF)1#0#0#0,转换为32位整数的结果为16777216(0x01000000)。现以字符串形式给出一个虚拟IPv4地址,限制第1小节的范围为1-128,即每一节范围分别为。要求每个IPv4地址只能对应到唯一的整数上。输入一行,虚拟IPv4地址格式字符串。

2023-10-23 23:22:17 248

原创 需要打开多少监控器

某长方形停车场,每个车位上方都有对应监控器,当且仅当在当前车位或者前后左右四个方向任意一个车位范围停车时,监控器才需要打开。给出某一时刻停车场的停车分布,请统计最少需要打开多少个监控器

2023-10-22 18:00:46 254

原创 核酸检测人员安排

每名采样员的效率不同,采样效率为N人/小时。由于外界变化,采样员的效率会以M人/小时为粒度发生变化,M为采样效率浮动粒度,M=N10%,输入保证N10%的结果为整数。采样员效率浮动规则:采样员需要一名志愿者协助组织才能发挥正常效率,在此基础上,每增加一名志愿者,效率提升1M,最多提升3M

2023-10-22 17:01:39 273

原创 全量和已占用字符集

给定两个字符集合,一个是全量字符集,一个是已占用字符集,已占用字符集中的字符不能再使用。

2023-10-22 14:36:18 248

原创 阿里巴巴找黄金宝箱(II)

一贫如洗的樵夫阿里巴巴在去砍柴的路上,无意中发现了强盗集团的藏宝地,藏宝地有编号从0~N的箱子,每个箱子上面贴有箱子中藏有金币的数量。

2023-10-22 14:05:16 189

原创 统计射击比赛成绩

统计设计比赛成绩给定一个射击比赛成绩单,包含多个选手若干次射击的成绩分数,请对每个选手按其最高3个分数之和进行降序排名,输出降序排名后的选手ID序列。

2023-10-22 13:06:19 552 2

原创 计算误码率

移动通信网络中的误码率主要是指比特误码率,其计算公式如下:比特误码率=错误比特数/传输总比特数,为了简单,我们使用字符串来标识通信的信息,一个字符错误了,就认为出现了一个误码输入一个标准的字符串,和一个传输后的字符串,计算误码率。② 从队列中不断去取数据,比较【先比较数字大小一致,再比较字符是否一致】之后多余部分再写入队列中,将不同的部分写入队列中。1、将压缩的数据全部解析完比较不同的数量【由于解压之后数据量可能很大,会导致超时问题】两行,分别为两种字符串的压缩形式。一行,错误的字等数量/展开后的总长度。

2023-10-22 10:47:46 418

原创 使用mediapipe训练手指数字识别

本文是从0开始创建一个识别手势的机器学习模型,为了识别手势,采用mediapipe模型,这个模型会返回手指的位置,之后再通过训练一个模型将这些位置分类得到手势

2023-07-29 12:07:16 1309 2

原创 spark读取jar中txt文件报错文件找不到

相比之下,getClass.getClassLoader.getResourceAsStream(filename) 方法接收的是 classpath 下文件的相对路径,因此可以在 jar 包中正确地读取文件内容。因此,如果您需要在 Spark 任务中读取 jar 包内的文件,建议使用 getClass.getClassLoader.getResourceAsStream(filename) 方法。需要注意的是,绝对路径在不同的机器上可能不同,因此这种方法并不可移植。建议仅在开发和测试环境中使用这种方法。

2023-03-27 17:31:09 464 1

原创 Hudi编译中maven-remote-resources-plugin:1.5:process: org/apache/commons/collections/ExtendedProperties

在hudi编译中执行maven package时报maven-remote-resources-plugin:1.5缺少collections 下的ExtendedProperties方法,

2023-02-01 22:43:49 436

原创 TensorFlow笔记【五】六步法搭建神经网络

六步法搭建神经网络

2022-12-04 14:52:00 614

原创 Tensorflow笔记【四】之搭建神经网络并对比

在搭建神经网络中,需要通过训练集训练搭建的神经网络,训练完成后需要通过验证集测试我们神经网络训练的效果。

2022-12-04 11:48:07 574 1

原创 算法之快排

快排:分治的方式对数据进行排序

2022-11-22 22:46:21 173

原创 算法之冒泡排序

在喝汽水时,常常会看到许多小气泡飘到上面,这时由于小气泡中的二氧化碳比水轻,而冒泡排序同这个物理现象一样,排序的元素会按照大小想气泡一样一个个向一个方向移动,

2022-11-06 16:36:02 294

原创 JSON解析Map类型异常

JSON解析map格式异常

2022-10-24 12:15:00 742

原创 hive统计函数《归因统计》

用法:percentile_approx(数值类型、array(需要统计的百分比…注意该函数是聚合函数。

2022-10-23 16:56:34 587

原创 一份代码了解html常用label

用一份代码了解html的常用label

2022-10-21 08:30:00 159

原创 用图带你了解大数据框架架构之DophinScheduler

用途:任务调度优势:分布式、易扩展、可视化的DAG工作流,开箱即用,国产易用。

2022-10-15 09:45:16 2092

原创 Datax安装及使用[Mysql <-> HDFS]

是阿里巴巴开源的一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。

2022-10-07 10:33:21 544

原创 Tensorflow笔记【三】过拟合及优化

过拟合、欠拟合,正则化,优化器

2022-09-08 23:13:09 706

原创 Tensorflow笔记【二】激活函数

激活函数可以引入非线性因素,解决线性模型所不能解决的问题。

2022-09-08 23:06:45 223

原创 TensorFlow笔记【一】之数据类型、函数

TensorFlow基础介绍,创建Tensor,常用函数

2022-09-06 23:31:35 225

原创 scala JSON解析报错:JSONException: illegal getter

scala解析json中的注意事项

2022-07-17 09:10:21 811

原创 spark引擎执行sql报错:JsonParseException:Unexpected_character

com.fasterxml.jackson.core.JsonParseException Unexpected_character("code

2022-07-10 11:57:32 1255

原创 Hive sql在执行时如何优化?

hive sql优化

2022-07-10 11:38:08 387

原创 Spark判断HDFS路径数据是否存在

该方法不需要使用hdfs的配置文件??import org.apache.hadoop.fs.{FSDataOutputStream, FileSystem, Path}val filePath = new org.apache.hadoop.fs.Path(Path)val fileSystem = filePath.getFileSystem(spark.sparkContext.hadoopConfiguration)//判断该路径下的HDFS文件是否存在fileSystem.exis

2022-05-29 10:58:30 669

原创 flink的slot如何配置?

Task Solt的配置为什么等于提交代码运行的最大的并行度?1、为了提高容错,如果一个slot失败,可以直接分配到其他slot执行2、由于每个算子的执行速度不同,flink为了保证并行执行的效率,不是将每个合并后的操作分配到一个Task Slot中(有些执行快,有些执行慢,慢的还会一直占用该slot),而是采用在每个slot中存所有的操作例如:public class BatchWordCount { public static void main(String[] args) th

2022-04-16 10:29:05 3494

原创 Excel中数据对比

excel常用的数据对比函数说明

2022-03-11 23:47:41 205

原创 Python使用protobuf格式通信(遇到的坑)

1、安装使用清华源进行安装pip3 install https://pypi.tuna.tsinghua.edu.cn/simple grpcio grpcio-tools protobuf坑:根据.proto文件转化时报错,但grpc-tools安装成功了Error while finding module specification for 'grpc_tools.protoc' (ModuleNotFoundError: No module named 'grpc_tools')

2021-12-11 09:57:09 1525

原创 Redis客户端常用命令大全

基本操作命令含义select [number]切换库,默认16个库flushdb清空库dbsize查看数据库中数据个数flushall清空所有库key操作命令含义keys xxx查找key,xxx为表达式,支持 * ?type key查看key对应值的类型exists key指定的key是否存在,0代表不存在,drdel key删除指定keyrandomkey在现有的KEY中随机返回一个ex

2021-12-05 10:58:08 887

原创 [J is not a valid external type for schema of bigint

问题:起源:在spark任务中,在将TFrecord的数据写入到Hive表中时,使用Datafram读取数据,解析,转化,得到DataFram[Row],再与Schema匹配,写入到Hive表中,打印Datafram的Schema,发现没有问题,但程序一直写不进去,报错,在解析数据写入到hive表时,出现 [J is not a valid external type for schema of bigint可以看到是数据类型不匹配导致的异常,但是 [J数据类型是怎样的?表中的字段近乎1000个,

2021-11-23 23:49:30 1067

原创 java.lang.ClassNotFoundException:tfrecord.Defaultsource

java.lang.ClassNotFoundException:tfrecord.Defaultsource报错信息:1、java.lang.ClassNotFoundException:tfrecord.Defaultsource2、java.lang.ClassNotFoundException:tensorflow.Defaultsource出现这两个异常,是由于缺失spark-tensorflow的jar包导致的,可以从以下几个方面进行排除。1、先确定在代码在pom依赖中配置ok2、

2021-10-31 09:22:20 780

原创 线性回归方程

最小二乘法求线性回归1、读取数据import numpy as npimport matplotlib.pyplot as plt# 读取信息points = np.genfromtxt('data.csv',delimiter=',')x = points[:,0]y = points[:,1]​plt.scatter(x,y) # 扫描所有点plt.show() 2、定义损失函数# 将求拟合函数转化为求损失函数,(当损失函数的值最小时,拟合效果越好)def cost_f

2021-08-15 09:40:12 429

原创 python将文本(txt)转excel(xls)

需要提前安装相关python包(如果通过安装anconda可以忽略)pip3 xlwtpip3 codecspython代码import xlwtimport codecs#输入的文本文件的路径input_txt = r'D:\Users\test0.txt'#输出excel的路径output_excel = r'D:\Users\finish0.xls'#保存到excel的那个工作表sheetName = 'test'#从哪行哪列开始start_row = 0start_

2021-08-08 08:26:11 1305

原创 IDEA2020及以上设置Scala代码自动显示变量类型

File --> settings -->Editor --> Inlay Hints -->Scala -->Type hints在Member variables、Method results、Local variables前打对钩

2021-08-08 08:25:40 709

原创 某厂大数据面试问题总结(补充)

SPARK问题:1、常见的数据倾斜解决方法有哪些,怎么在spark中定位数据倾斜的问题?2、在spark 中遇到not serializable 的原因是什么,要怎么解决?3、如何在spark中设置缓存,应对读写热点的问题?4、spark中RDD是否可以嵌套,在RDD中调用RDD?为什么?5、如何用spark读取hbase的数据,或者是其他数据库中的数据?6、为什么说spark会比MR快?7、spark使用中遇到最多的问题是什么?有什么解决方案?8、spark程序,可以设置哪些persist

2021-07-21 23:42:54 445 1

Taxi_Trips_-_2024_20240408.csv

Taxi_Trips_-_2024_20240408.csv

2024-05-15

数据湖编译资源smile

资料.zi

2023-02-03

Azkaban工作调度框架安装包

Azkaban工作调度框架安装包

2022-04-09

大数据常用脚本.rar

大数据常用脚本.rar

2021-05-12

presto-jdbc-0.245.jar

presto连接jdbc,适用于dberver使用即席查询时连接

2021-03-09

sqoop常用命令.xlsx

sqoop的常用指令操作

2021-01-15

kafka.xmind

通过xmind思维导图的方式对kafka框架总结, 包含producer和consumer程序

2021-01-09

hive语句.xlsx

hive常用命令及用法

2021-01-04

Linux下MySQL-Hive.rar

Linux下的MySQL和Hive安装包,详细配置请看本人博客安装说明https://blog.csdn.net/qq_38705144/article/details/111731445

2020-12-26

zookeeper思维导图

zookeeper思维导图

2020-12-24

maven安装包及本地仓库.rar

自动化构建工具maven的安装包,(处理jar包之间的冲突)及本地资源仓库,已下载常用的jar包配置在repo文件夹下。

2020-12-07

MySQL练习题(附带数据)

MySQL练习题(附带数据), 包含:DDL:数据定义语言,定义库,表结构等,包括create,drop,alter等 DML:数据操作语言,增删改查数据,包括insert,delete,update,select等 DCL:数据控制语言,权限,事务等管理。 DQL: 数据查询语言, 子句练习,权限管理等

2020-12-02

超声波测距

采用超声波测距,有效范围1—600cm,并且用lcd1602显示

2017-05-20

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除