- 博客(378)
- 收藏
- 关注
原创 Request2:Post请求和Json
取出对应的RequestUrl ,看出来要使用的话得用post请求。百度翻译拿到自己想看的数据,下图查看请求到数据的请求。
2024-10-18 16:11:46
465
原创 Request1:入门及User-Agent
加上query搜索,查看没有user-agnet并未伪装成浏览器。用request获取搜狗的页面存储成html页面。被检测出来是程序要求输入验证码。加上user-agent。
2024-10-18 15:15:53
254
原创 DorisManager使用
9、修复缩容失败后选择修改配置,状态显示未知状态,概览页却是 Running 状态的问题。10、修复缩容 manager 上显示活跃实际是非 Alive 的 BE 节点失败的问题。20、修复新建集群状态不正确的问题(集群创建为创建失败,任务状态为执行中)4、修复被托管的集群升级的时候会报错找不到 JDK 的问题。8、修复 File cache 配置的单位不正确的问题。18、修复节点显示无效状态但实际是正常状态的问题。14、修复托管的集群参数配置修改未成功的问题。
2024-09-20 10:08:16
916
原创 Flink状态后端-Memory/Fs/RockDB
纠正一个常见的误区:认为RocksDB是一个需要在集群上运行并由专门管理员管理的分布式数据库,是错误的。RocksDB是一个用于快速存储的可嵌入持久化键值存储。它通过Java Native接口(JNI)与Flink进行交互。
2024-08-12 11:30:17
1326
转载 Flink Sink JDBC 源码分析
JdbcExecutionOptions 可以配置 批量写入间隔时间 最大写入数量 和 异常容错次数(只支持sql异常)JdbcConnectionOptions 可以配置数据库的连接参数关闭定时写入可以把 BatchIntervalMs设置为0实时写入可以把 BatchSize 设置为1间隔时间 或者 最大写入数 或者 触发检查点的时候 这三个地方 会触发写入批量写入jdbc未开启检查点可能会丢失数据的,开启了检查点需要保证数据库幂等性插入因为可能会重复插入!
2024-08-07 09:38:02
273
转载 Java并发调用多个接口聚合
通过并发调用多个接口并聚合结果,我们可以提高系统的响应速度和效率。在实际应用中,可以根据具体需求和接口调用的复杂度来调整线程池的大小和任务提交的方式。同时,我们也需要注意异常处理和线程安全性,确保系统的稳定性和可靠性。希望本文对你理解Java并发调用多个接口聚合有所帮助!如果有任何问题或建议,欢迎留言讨论。原创作者: u_16213326 转载于: https://blog.51cto.com/u_16213326/11293590。
2024-07-08 09:54:40
447
原创 conda同时使用tensorflow1和tensorflow2(conda基础操作)
Anaconda环境除了附带了众多Python库外,还支持多个虚拟环境,这这是TensorFlow1.x和TensorFlow2.x共存的关键。如果下载的是Python3.7的Anaconda版本,那么这个环境的Python版本就是Python3.7。注意,在创建虚拟环境的过程中,会通过Internet下载相关的库,可能在国内有些慢。现在回到主题,在前面已经创建了一个名为tf2的虚拟环境,接下来用下面的命令激活tf2。如果在此之前设置了其他的镜像,可以使用下面的命令删除这些镜像。
2024-06-14 16:07:44
461
原创 安装torch报cannot uninstall TBB,its a distutils installed project
去anaconda文件夹的Lib下site-packages里找,TBB名称的egg.info的文件删掉即可,然后再次安装torch。
2024-06-11 14:01:14
938
1
原创 数据治理指标库
方法:以维度建模作为理论基础,构建总线矩阵,定义业务域、数据域、业务过程、度量/原子指标、维度、维度属性、修饰词、修饰类型、时间周期、派生指标等。统一指标和维度管理,指标命名、计算口径、统计来源唯一, 维度定义规范、维度值一致。1.2 衍生原子指标 依赖于主原子指标,加衍生词(带计算口径),不含时间范围。1 原子指标:不可再拆分的指标。
2024-05-31 16:13:27
236
原创 数据治理之语法治理
指使用left join时,左表的过滤条件没有写在 where 中或写子查询,右表的过滤条件没有写在on里面或写子查询。使用right join时,左表的过滤条件没有写在on中或写子查询,右表的过滤条件没有写在where里面或写子查询。指语句中使用了distinct关键字,建议可用group by语句实现的采用group by来实现。指语句中进行了表关联,但是未指定on关联条件。该操作会导致大量计算,影响代码性能,需谨慎操作。指表关联中使用了full join,建议使用union all优化。
2024-05-31 16:10:57
272
原创 吴恩达深度学习个人笔记
但它并不能很好地拟合该数据集,这是偏差高(high bias)的情况,称为欠拟合(underfit the data);(Recurrent Neural Network),语言,英语和汉语字母表或单词都是逐个出现的,所以语言。复杂程度适中,数据拟合适度的分类器,这个看上起更为合理,称适度拟合(just right),相反地,如果我们拟合一个非常复杂的分类器,比如深度神经网络或者含有隐藏单元的神经网络,梯度下降法的工作原理是通过计算损失函数对于参数的梯度,然后沿着梯度的反方向更新参数,以减小损失函数的值。
2024-05-31 15:58:34
993
转载 Coursera吴恩达《深度学习》课程总结(全)
这里有Coursera吴恩达《深度学习》课程的完整学习笔记,一共5门课:《神经网络和深度学习》、《改善深层神经网络》、《结构化机器学习项目》、《卷积神经网络》和《序列模型》,最后附上人工智能领域大师访谈,干货满满。2-1 Coursera吴恩达《改善深度神经网络》 第一周课程笔记-深度学习的实践方面。3-1 Coursera吴恩达《构建机器学习项目》 第一周课程笔记-机器学习策略(1)3-2 Coursera吴恩达《构建机器学习项目》 第二周课程笔记-机器学习策略(2)
2024-05-31 15:10:16
135
原创 基于docker-compose通过指定镜像做版本升级
将mysql的镜像导出成tar文件到当前文件夹。docker-compose.yml文件。#离线做mysql升级。
2024-04-11 16:54:29
1214
原创 数仓建模方法
数据模型就是数据组织和存储方法,它强调从业务、数据存取和使用角度合理存储数据。Linux的创始人Torvalds有一段关于“什么才是优秀程序员”的话:“烂程序员关心的是代码,好程序员关心的是数据结构和它们之间的关系”,最能够说明数据模型的重要性。只有数据模型将数据有序的组织和存储起来之后,大数据才能得到高性能、低成本、高效率、高质量的使用。性能:帮助我们快速查询所需要的数据,减少数据的I/O吞吐,提高使用数据的效率,如宽表。
2024-03-25 11:12:39
412
原创 数据血缘实现原理
大数据时代,数据的来源极其广泛,各种类型的数据在快速产生,数据也是爆发性增长。从数据的产生,通过加工融合流转产生新的数据,到最终消亡,数据之间的关联关系可以称之为数据血缘关系。在数据中台的大背景下,数仓的开发者经常需要解决以下问题:面对成百上千张的数据表,不知道该如何关联,也不知道这些表具有什么业务价值执行过长,慢的无法忍受的SQL脚本,却不敢轻易进行整改数据表是否包含机密数据需要被清理,以及这些机密数据是否被转存导致权限放大其实,以上的这些问题都可以统一归类为数据发现问题。
2024-03-14 10:27:11
477
原创 win11家庭版docker和milvus
2、双击打开下载好的文件Docker Desktop Installer.exe,add shortcut to desktop选择√代表同意添加快捷键到桌面,如果不勾选就说明不创建快捷键,大家根据自己需求选择就行。8、然后输入下述命令,设置 Windows 操作系统中的 Hyper-V 启动类型。,则会找不到Hyper-Vr,这时则需要自己创建,讲下述代码复制在txt文本里,并重命名为Hyper.cmd,6、找到控制面板--程序--程序和功能--启用或关闭windows功能 ,勾选Hyper-V。
2024-03-07 14:03:00
1083
原创 向量化vectorization
向量化:向量化是一种特殊的编程技术,它可以充分利用现代处理器的并行处理能力,以提高代码的执行效率。它的基本思想是对一组数据(或称为数据向量)执行相同的操作,而不是对单个数据元素逐一执行。这样可以极大地提高代码的运行效率,因为处理器可以在同一时间内处理多个数据元素。
2024-03-05 09:55:46
697
1
原创 aidd-rdkit使用
rdkit的新版本是pypi,3.8以下的python只能用rdkit,以上只能用pypi。不要用conda包管理器 不然非常缓慢。
2024-03-04 10:21:49
340
原创 Spark常见问题解决-日志和排查办法
(3)查看是否任务参数设置不合理,例如executor-memory是设的大,但是--num-executors设置的很少才几十个,可以根据集群情况和业务量大小合理增大executor数,数量判断标准是一个executor的CPU core同一时刻尽量只处理一个HDFS block的数据(如128或256M),在没有设置--executor-cores等参数的情况下,默认一个executor包含一个CPU core。elasticsearch-hadoop使用的就是HTTP方式连接的ES集群。
2024-01-25 13:44:51
689
转载 ESB服务&数据总线平台介绍
ESB企业服务总线作为集成龙骨满足应用、数据和业务等集成需要,应用集成如统一认证、单点登录等主要实现业务系统间的对接;数据集成如主数据治理和数据分析等,通过ESB实现数据的聚合以及分发;业务集成如业财一体化等,实现企业业务之间的互联互通。在集成的过程中,ESB的作用至关重要,它连接着上下游业务系统,构建了数据集成传输的通道,是企业信息化建设由无序到有序、由散乱到规范、由点对点到总线式的有效工具与手段。ESB企业服务总线在实际项目中主要用于各业务系统之间的集成,集成包括数据集成、应用集成以及业务单据集成。
2024-01-12 11:08:01
3212
原创 DAMA-描述性、诊断性、预测性和规定性分析
通过利用机器学习算法和统计模型,公司可以预测销售和需求的波动,识别旺季,优化库存管理,并保持敏捷,以应对不断变化的市场条件。规范分析通过使用优化算法和模拟工具来提高供应链效率,它仔细检查关于库存水平、生产能力、运输物流和市场需求的大量数据,以制定采购、生产和分销战略,这种方法可以降低成本,缩短交货期,并提高供应链的整体绩效。使用诊断分析分析客户流失时,需要仔细检查数据以确定导致客户流失的因素,这涉及对客户行为、反馈和参与度指标进行彻底检查,以发现可能指示客户终止与产品或服务的参与度的原因的模式和趋势。
2024-01-09 11:20:14
1415
原创 sed和awk使用
3、sed读取一行数据,会以行作为单位进行处理,而awk读取一行,会切割成字段,区别: 1、sed是流编辑器(行),而awk是文本格式化工具,报告生成器(解释型的编程语言);2、awk适合对文件进行抽取整理,sed适合对文件进行编辑;以字段(列)为单位,进行细节处理。
2023-11-29 16:28:55
272
原创 netstat和ps命令
意思为 127.0.0.1:36644 通过进程号83369访问 127.0.0.1:9091 ,成功ESTABLISHED了连接。
2023-11-29 13:36:00
629
原创 HDFS元数据管理/磁盘清理维护
文件、目录自身的属性信息,例如文件名,目录名,修改信息等文件记录的信息的存储相关的信息,例如存储块信息,分块情况,副本个数等记录 HDFS 的 Datanode 的信息,用于 DataNode 的管理。
2023-11-23 10:11:04
2518
原创 防火墙操作:开放端口&ICMP时间戳请求漏洞修复
-一些新的 Linux 系统中,我们可以使用 firewalld 命令来管理防火墙规则。该命令将在防火墙规则中添加一条规则,允许 TCP 协议通过 8080 端口进行连接。重新加载防火墙规则: sudo firewall-cmd --reload。--permanent 参数将该规则永久性添加到防火墙中。响应ICMP时间戳请求漏洞修复。--检查端口是否已经被占用。
2023-10-20 13:52:47
2533
原创 安装docker并在内安装mysql
在卸载Docker之前,首先需要停止Docker服务。yum -y install docker.io 或 apt-get install -y docker.io。卸载Docker软件包后,你还需要手动删除Docker相关的文件和目录。登录容器之前需要先启动容器: docker start 容器id (上面已经启动了 不用再启动)进入容器,从容器中登录MySQL:mysql -uroot -pJmkx_2022。Docker在安装时创建了一个名为docker的用户组和用户,
2023-10-19 09:28:18
731
原创 flinkdashboard未授权
访问 http://172.16.150.xx:8084。然后目录在/usr/local/nginx。flinkwebui 增加账号密码。添加配置完成以后,重启nginx,修改flink.conf。配置nginx.conf。
2023-10-16 12:25:30
1817
原创 mysql5升级到mysql8的血泪教训
我这里备份了全库,所以后面数据没恢复回来,把DDL语句拆出来了单独建表。核心问题1:下载中断这个包就会有问题,下载中断的话一定要重新下载。核心问题2:低版本向高版本迁移 无法整库备份 只能单库备份。# 安装包上传至原安装包目录下 我的是。更改配置文件/etc/my.cnf。# 文件夹重命名为mysql8。给用户某库下所有表的增删改查权限。# 修改mysql服务启动项配置。# 这两句很重要 一定要 -R。# 修改basedir目录。
2023-09-20 15:38:16
779
原创 PyCharm导入python项目
在弹窗中,选择New environment 或者 Existing environment都可以,路径选择本地配置的python.exe路径即可;进入PyCharm后,点击File→Open,然后在弹窗中选择需要导入项目的文件夹;打开了python项目后,需要配置该项目对应的python才可以正常运行;在设置弹窗中选择Project Interpreter,然后点击add;然后就大功告成了,可以去试着运行你的程序了~配置步骤:File→settings。
2023-09-18 18:06:12
710
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人