for your wish-CSDN博客

原创 python反爬

关闭掉 Deactivate Breakpoints。

2024-10-21 15:49:02 309

原创 Request3:滚轮刷新更多

豆瓣，get请求查看ajax，下拉滚轮刷新新板块的数据。可查看的，调用的参数。

2024-10-21 13:31:12 209

原创 Request2:Post请求和Json

取出对应的RequestUrl ，看出来要使用的话得用post请求。百度翻译拿到自己想看的数据，下图查看请求到数据的请求。

2024-10-18 16:11:46 465

原创 Request1：入门及User-Agent

加上query搜索，查看没有user-agnet并未伪装成浏览器。用request获取搜狗的页面存储成html页面。被检测出来是程序要求输入验证码。加上user-agent。

2024-10-18 15:15:53 254

原创 python-获取浏览器静态/动态素材

f12浏览器中1：静态爬取2.动态资源获取。

2024-09-24 19:29:43 257

9、修复缩容失败后选择修改配置，状态显示未知状态，概览页却是 Running 状态的问题。10、修复缩容 manager 上显示活跃实际是非 Alive 的 BE 节点失败的问题。20、修复新建集群状态不正确的问题（集群创建为创建失败，任务状态为执行中）4、修复被托管的集群升级的时候会报错找不到 JDK 的问题。8、修复 File cache 配置的单位不正确的问题。18、修复节点显示无效状态但实际是正常状态的问题。14、修复托管的集群参数配置修改未成功的问题。

2024-09-20 10:08:16 916

原创 Flink状态后端-Memory/Fs/RockDB

纠正一个常见的误区：认为RocksDB是一个需要在集群上运行并由专门管理员管理的分布式数据库，是错误的。RocksDB是一个用于快速存储的可嵌入持久化键值存储。它通过Java Native接口（JNI）与Flink进行交互。

2024-08-12 11:30:17 1326

转载 Flink Sink JDBC 源码分析

JdbcExecutionOptions 可以配置批量写入间隔时间最大写入数量和异常容错次数（只支持sql异常）JdbcConnectionOptions 可以配置数据库的连接参数关闭定时写入可以把 BatchIntervalMs设置为0实时写入可以把 BatchSize 设置为1间隔时间或者最大写入数或者触发检查点的时候这三个地方会触发写入批量写入jdbc未开启检查点可能会丢失数据的，开启了检查点需要保证数据库幂等性插入因为可能会重复插入！

2024-08-07 09:38:02 273

转载 Java并发调用多个接口聚合

通过并发调用多个接口并聚合结果，我们可以提高系统的响应速度和效率。在实际应用中，可以根据具体需求和接口调用的复杂度来调整线程池的大小和任务提交的方式。同时，我们也需要注意异常处理和线程安全性，确保系统的稳定性和可靠性。希望本文对你理解Java并发调用多个接口聚合有所帮助！如果有任何问题或建议，欢迎留言讨论。原创作者: u_16213326 转载于: https://blog.51cto.com/u_16213326/11293590。

2024-07-08 09:54:40 447

原创 Python机器学习术语and线性回归算法

线性关系：x和y呈一条直线。

2024-07-04 18:43:51 468

原创 conda同时使用tensorflow1和tensorflow2（conda基础操作）

Anaconda环境除了附带了众多Python库外，还支持多个虚拟环境，这这是TensorFlow1.x和TensorFlow2.x共存的关键。如果下载的是Python3.7的Anaconda版本，那么这个环境的Python版本就是Python3.7。注意，在创建虚拟环境的过程中，会通过Internet下载相关的库，可能在国内有些慢。现在回到主题，在前面已经创建了一个名为tf2的虚拟环境，接下来用下面的命令激活tf2。如果在此之前设置了其他的镜像，可以使用下面的命令删除这些镜像。

2024-06-14 16:07:44 461

原创安装torch报cannot uninstall TBB，its a distutils installed project

去anaconda文件夹的Lib下site-packages里找，TBB名称的egg.info的文件删掉即可，然后再次安装torch。

2024-06-11 14:01:14 938 1

原创数据治理指标库

方法：以维度建模作为理论基础，构建总线矩阵，定义业务域、数据域、业务过程、度量/原子指标、维度、维度属性、修饰词、修饰类型、时间周期、派生指标等。统一指标和维度管理，指标命名、计算口径、统计来源唯一，维度定义规范、维度值一致。1.2 衍生原子指标依赖于主原子指标，加衍生词(带计算口径)，不含时间范围。1 原子指标：不可再拆分的指标。

2024-05-31 16:13:27 236

原创数据治理之语法治理

指使用left join时，左表的过滤条件没有写在 where 中或写子查询，右表的过滤条件没有写在on里面或写子查询。使用right join时，左表的过滤条件没有写在on中或写子查询，右表的过滤条件没有写在where里面或写子查询。指语句中使用了distinct关键字，建议可用group by语句实现的采用group by来实现。指语句中进行了表关联，但是未指定on关联条件。该操作会导致大量计算，影响代码性能，需谨慎操作。指表关联中使用了full join，建议使用union all优化。

2024-05-31 16:10:57 272

原创吴恩达深度学习个人笔记

但它并不能很好地拟合该数据集，这是偏差高（high bias）的情况，称为欠拟合（underfit the data）；（Recurrent Neural Network），语言，英语和汉语字母表或单词都是逐个出现的，所以语言。复杂程度适中，数据拟合适度的分类器，这个看上起更为合理，称适度拟合（just right），相反地，如果我们拟合一个非常复杂的分类器，比如深度神经网络或者含有隐藏单元的神经网络，梯度下降法的工作原理是通过计算损失函数对于参数的梯度，然后沿着梯度的反方向更新参数，以减小损失函数的值。

2024-05-31 15:58:34 993

原创 tensorflow初实现深度学习

【代码】tensorflow初实现深度学习。

2024-05-31 15:55:29 489

转载 Coursera吴恩达《深度学习》课程总结（全）

这里有Coursera吴恩达《深度学习》课程的完整学习笔记，一共5门课：《神经网络和深度学习》、《改善深层神经网络》、《结构化机器学习项目》、《卷积神经网络》和《序列模型》，最后附上人工智能领域大师访谈，干货满满。2-1 Coursera吴恩达《改善深度神经网络》第一周课程笔记-深度学习的实践方面。3-1 Coursera吴恩达《构建机器学习项目》第一周课程笔记-机器学习策略（1）3-2 Coursera吴恩达《构建机器学习项目》第二周课程笔记-机器学习策略（2）

2024-05-31 15:10:16 135

原创基于docker-compose通过指定镜像做版本升级

将mysql的镜像导出成tar文件到当前文件夹。docker-compose.yml文件。#离线做mysql升级。

2024-04-11 16:54:29 1214

原创数仓建模方法

数据模型就是数据组织和存储方法，它强调从业务、数据存取和使用角度合理存储数据。Linux的创始人Torvalds有一段关于“什么才是优秀程序员”的话：“烂程序员关心的是代码，好程序员关心的是数据结构和它们之间的关系”，最能够说明数据模型的重要性。只有数据模型将数据有序的组织和存储起来之后，大数据才能得到高性能、低成本、高效率、高质量的使用。性能：帮助我们快速查询所需要的数据，减少数据的I/O吞吐，提高使用数据的效率，如宽表。

2024-03-25 11:12:39 412

原创数据血缘实现原理

大数据时代，数据的来源极其广泛，各种类型的数据在快速产生，数据也是爆发性增长。从数据的产生，通过加工融合流转产生新的数据，到最终消亡，数据之间的关联关系可以称之为数据血缘关系。在数据中台的大背景下，数仓的开发者经常需要解决以下问题：面对成百上千张的数据表，不知道该如何关联，也不知道这些表具有什么业务价值执行过长，慢的无法忍受的SQL脚本，却不敢轻易进行整改数据表是否包含机密数据需要被清理，以及这些机密数据是否被转存导致权限放大其实，以上的这些问题都可以统一归类为数据发现问题。

2024-03-14 10:27:11 477

原创 win11家庭版docker和milvus

2、双击打开下载好的文件Docker Desktop Installer.exe，add shortcut to desktop选择√代表同意添加快捷键到桌面，如果不勾选就说明不创建快捷键，大家根据自己需求选择就行。8、然后输入下述命令，设置 Windows 操作系统中的 Hyper-V 启动类型。，则会找不到Hyper-Vr，这时则需要自己创建，讲下述代码复制在txt文本里，并重命名为Hyper.cmd，6、找到控制面板--程序--程序和功能--启用或关闭windows功能，勾选Hyper-V。

2024-03-07 14:03:00 1083

原创向量化vectorization

向量化：向量化是一种特殊的编程技术，它可以充分利用现代处理器的并行处理能力，以提高代码的执行效率。它的基本思想是对一组数据（或称为数据向量）执行相同的操作，而不是对单个数据元素逐一执行。这样可以极大地提高代码的运行效率，因为处理器可以在同一时间内处理多个数据元素。

2024-03-05 09:55:46 697 1

原创 aidd-rdkit使用

rdkit的新版本是pypi,3.8以下的python只能用rdkit，以上只能用pypi。不要用conda包管理器不然非常缓慢。

2024-03-04 10:21:49 340

原创 Spark常见问题解决-日志和排查办法

（3）查看是否任务参数设置不合理，例如executor-memory是设的大，但是--num-executors设置的很少才几十个，可以根据集群情况和业务量大小合理增大executor数，数量判断标准是一个executor的CPU core同一时刻尽量只处理一个HDFS block的数据（如128或256M），在没有设置--executor-cores等参数的情况下，默认一个executor包含一个CPU core。elasticsearch-hadoop使用的就是HTTP方式连接的ES集群。

2024-01-25 13:44:51 689

原创 win下查看GPU

1首先ctrl alt delete打开任务管理器查看GPU型号

2024-01-16 20:54:02 1096

转载 ESB服务&数据总线平台介绍

ESB企业服务总线作为集成龙骨满足应用、数据和业务等集成需要，应用集成如统一认证、单点登录等主要实现业务系统间的对接；数据集成如主数据治理和数据分析等，通过ESB实现数据的聚合以及分发；业务集成如业财一体化等，实现企业业务之间的互联互通。在集成的过程中，ESB的作用至关重要，它连接着上下游业务系统，构建了数据集成传输的通道，是企业信息化建设由无序到有序、由散乱到规范、由点对点到总线式的有效工具与手段。ESB企业服务总线在实际项目中主要用于各业务系统之间的集成，集成包括数据集成、应用集成以及业务单据集成。

2024-01-12 11:08:01 3212

原创 DAMA-描述性、诊断性、预测性和规定性分析

通过利用机器学习算法和统计模型，公司可以预测销售和需求的波动，识别旺季，优化库存管理，并保持敏捷，以应对不断变化的市场条件。规范分析通过使用优化算法和模拟工具来提高供应链效率，它仔细检查关于库存水平、生产能力、运输物流和市场需求的大量数据，以制定采购、生产和分销战略，这种方法可以降低成本，缩短交货期，并提高供应链的整体绩效。使用诊断分析分析客户流失时，需要仔细检查数据以确定导致客户流失的因素，这涉及对客户行为、反馈和参与度指标进行彻底检查，以发现可能指示客户终止与产品或服务的参与度的原因的模式和趋势。

2024-01-09 11:20:14 1415

空空如也

空空如也