自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(33)
  • 收藏
  • 关注

原创 达梦数据库查主键

【代码】达梦数据库查主键。

2024-03-27 09:24:48 502 2

原创 Flink依赖配置

在Maven项目的pom.xml中添加。

2024-03-12 13:25:25 387

原创 Flink示例

假设有以下两个订单流数据,数据字段分别为用户ID、购买的商品名称、商品数量。目标:合并两个流的数据,并筛选出商品数量大于2的订单数据。11> Order(2,笔记本,3)10> Order(2,手表,3)12> Order(1,尺子,3)1> Order(1,铅笔,4)2L,"笔记本",3。4L,"计算器",1。

2024-03-11 13:50:11 365

原创 python并发编程之多进程、多线程、异步和协程详解

总结起来,多进程适用于CPU密集型任务,多线程适用于IO密集型任务,异步和协程适用于IO密集型任务且需要高性能。在执行一个IO操作时,可以立即切换到执行其他任务,而不需要等待IO操作的完成。模块提供了多进程编程的功能,可以方便地创建和管理多个进程。多进程适用于CPU密集型任务,可以充分利用多核CPU的优势。在Python中,有多种并发编程的方式可供选择,包括多进程、多线程、异步和协程。模块提供了异步编程的功能,可以通过协程来实现异步操作。异步编程适用于IO密集型任务,可以提高程序的吞吐量。

2024-03-06 18:12:22 984

原创 GoLevelDB构建数据字典

以上代码示例了如何使用 GoLevelDB 来插入数据、获取数据以及遍历数据字典。你可以根据需要,添加更多的数据插入操作和遍历操作,以生成你想要的数据字典。GoLevelDB 是一个开源的键值存储数据库,可以用于构建数据字典,下面是一些示例代码,展示了如何使用 GoLevelDB 来生成数据字典。首先,你需要在 Go 中导入 GoLevelDB 包,并创建一个数据库实例。函数来创建或打开一个数据库文件。

2024-02-27 10:08:50 429

原创 商业化运营关键指标

Average Revenue Per User

2024-02-14 16:08:39 961

原创 解决Exception in thread “main“ joptsimple.UnrecognizedOptionException: zookeeper is not a recognized问题

解决kafka报错Exception in thread “main“ joptsimple.UnrecognizedOptionException: zookeeper is not a recognized

2024-02-08 16:36:34 431

原创 升级anaconda中python到3.10版本

需要使用函数pairwise,发现python版本偏低,尝试了把anaconda中jupyter notebook中的python环境升级到3.10。回到anaconda要在左侧list中的environment环境中进行配置,将之前的环境更换为python3.10,就可以使用了。为了避免对现有环境产生影响,创建一个新的虚拟环境安装python3.10。如果显示python3.10环境,那么python3.10就安装成功了。在base下查看当前conda环境配置。安装Python3.10。

2024-01-29 15:56:51 4548

原创 云服务器docker-compose部署kafka并编写ava使用kafka示例代码

这个Docker Compose文件将会启动一个Zookeeper和一个Kafka容器。注意,我们在Kafka容器中设置了一个环境变量来指定Kafka的主机名。然后,创建一个新的目录来存放你的Docker Compose配置文件。通过以上步骤,你应该可以在云服务器上使用Docker Compose部署Kafka,并编写Java示例代码来使用Kafka。以上代码包括一个简单的Kafka生产者和一个消费者。接下来,你可以编写使用Kafka的Java示例代码。到你的类路径中,以便在命令中使用。

2024-01-09 15:57:39 452

原创 RFM模型

通过对这三个指标进行综合评估,RFM模型将客户分为不同的等级,比如将客户分为高价值客户、中价值客户和低价值客户,一次性客户、长时间没有购买的潜在流失客户等,以帮助企业更好地了解客户行为,制定相应的营销策略,提高客户满意度和忠诚度。根据RFM分数的高低来划分客户群体,例如可以将客户分为A、B、C、D四个等级,A代表最有价值的客户。RFM模型是一种用于客户价值分析的经典模型,用于客户细分和分析的方法,可以帮助企业识别出最有价值的客户、了解他们的行为模式,并制定有针对性的营销策略。

2023-12-29 14:40:47 578

原创 【自然语言处理】类似GPT的模型

CTRL (Conditional Transformer Language Model): CTRL 是 OpenAI 开发的一种条件语言模型,在文本生成任务中可以根据给定的控制码生成特定领域的文本。RoBERTa: RoBERTa 是一种基于 BERT 的模型,它使用更大的预训练数据集和更长的预训练时间进行训练,从而提高了模型的性能。它采用了一种全新的自回归预训练方法,解决了BERT等模型中存在的排列不变性的问题,提高了生成文本的质量。具体选择哪个工具取决于你的需求和所处理的任务类型。

2023-12-29 14:00:35 778

原创 【数据挖掘】模型融合

堆叠法(stacking/blending):将多个模型的预测结果作为输入,训练一个新的模型来得到最终的预测结果。投票法(Voting):根据多个模型的预测结果,统计出现频率最高的预测结果作为最终的预测结果。投票法适用于模型预测结果的方差较大的情况。模型融合是指将多个不同的机器学习模型组合起来,通过综合多个模型的预测结果来得到更准确的预测结果。模型融合可以提高模型的鲁棒性,减小模型的方差,提高模型的泛化能力。在进行模型融合时,需要注意选择不同模型之间具有较低的相关性,避免多个模型预测结果的冗余。

2023-12-28 16:40:17 1555

原创 【数据倾斜笔记】

数据倾斜是指在数据集中某个特定的特征值出现的频率远高于其他特征值的情况。这种情况在数据分析和机器学习中经常出现,可能会影响模型的性能和准确性。数据倾斜可能出现在分类问题中的目标变量,也可能出现在特征变量中。在目标变量中,数据倾斜表示某个类别的样本数量远大于其他类别的样本数量,这可能导致模型对少数类别的预测效果不佳。在特征变量中,数据倾斜表示某个特征值出现的频率远高于其他特征值,这可能导致模型对该特征的重要性判断不准确。

2023-12-28 10:04:06 936

原创 风控模型 -- 模型调参

贝叶斯优化(Bayesian Optimization):贝叶斯优化通过构建参数的先验分布,利用已有的参数组合和性能评估结果,推断模型性能的后验分布,并选择具有最大期望改善的参数进行评估。贝叶斯优化在处理高维参数空间和高度非线性的情况下具有很好的效果。自动机器学习工具可以根据指定的性能指标和时间限制,快速评估和比较不同模型和参数组合的性能,并给出最佳的模型和参数。网格搜索(Grid Search):通过指定一组不同的参数值,将参数空间划分成网格,遍历网格中的每个参数组合,并评估模型在不同参数组合下的性能。

2023-12-27 16:03:14 377

原创 特征工程 -- 特征选择

嵌入式特征选择(Embedded):该方法是将特征选择过程融入到模型训练中,通过学习过程自动选择出各个特征的权值系数,根据系数从大到小选择特征(类似于Filter,只不过系数是通过训练得来的)。特征选择是特征工程中的一个重要步骤,它的目的是从原始特征中选择出对模型建立和预测具有重要影响的特征子集,以达到提高模型精确度,减少运行时间的效果。最后需要注意的是,特征选择是一个迭代的过程,可能需要多次尝试不同的方法和参数,以获取最优的特征子集。特征选择方法选择:根据具体问题和数据特点选择合适的特征选择方法。

2023-12-25 15:15:59 352 1

原创 特征工程 -- 数据分桶

数据的特征内的值跨度可能比较大,对有监督和无监督中如k-means聚类使用欧式距离作为相似度函数来测量数据点之间的相似度,都会造成大吃小的影响,其中一种解决方法是对计数值进行区间量化即数据分桶也叫做数据分箱,然后使用量化结果。改善模型的泛化能力:由于数据分桶将连续型数据转化为离散型数据,使得模型在学习过程中可以更好地捕捉数据的不同特征和模式,从而提高模型的泛化能力。降低模型对异常值的敏感性:数据分桶可以将连续型数据转化为离散型数据,在离散化后,异常值会被分到较少的分桶中,从而降低异常值对模型的影响。

2023-12-25 13:58:14 751 1

原创 数据分析流程

模型评估与优化:对建立的模型进行评估,根据评估结果进行模型的优化和调整,提高模型的准确性和预测能力。数据清洗与预处理:对收集到的数据进行清洗和预处理,包括处理缺失值、异常值、重复值,进行数据转换、格式化等操作。在应用模型时,需要考虑模型的效果和可靠性,同时也需要将模型的结果进行解释和呈现,以便让业务部门或者决策者能够理解和应用。收集数据:收集与问题相关的数据,确定数据源,包括内部数据,外部数据,公开数据,商业数据等。常用的结果呈现方式包括可视化、报告、PPT等,需要根据不同的需求和场景选择不同的呈现方式。

2023-12-25 10:42:03 743 1

原创 【风控业务分析模型】

通常使用机器学习和数据挖掘技术,结合大量的历史交易数据和数据挖掘技术,结合大量的历史交易数据和公开信息,识别和预测涉嫌洗钱或非法资金流转的行为,并及时报告和处理异常事件。通常使用机器学习和数据挖掘技术,根据客户的历史还款记录、逾期情况等数据,预测客户的未来还款意愿和能力,并建立相应的催收策略和流程,以提高催收成功率和降低成本。通过对客户购物历史记录和行为数据进行分析,可以清晰地了解客户的购物路径和购物习惯,进而指定更加精准的营销和促销策略,提高客户的满意度和忠诚度。

2023-12-20 17:41:04 1003 1

原创 存算分离数据架构

在传统的架构中,存储和计算通常是紧密耦合的,数据必须从存储系统中读取到计算节点进行处理。在这个存算分离架构中,数据的存储和计算被解耦,可以灵活地进行扩展和优化。总结: 搭建存算分离数据架构需要设计存储层和计算层的架构,进行数据同步和导入,将计算和存储分离,设计数据访问接口,并进行监控和优化。计算和存储分离:将计算过程从存储层分离出来,将计算结果存储到独立的计算数据层中。数据同步和导入:将持久化数据从存储层导入到计算层,可以使用ETL工具或者自定义数据同步脚本进行数据导入,保证计算层能够及时获取最新的数据。

2023-12-19 16:53:35 1152 1

原创 流批一体架构

调度和监控:可以使用Flink和Hive的调度和任务管理工具,如Apache Mesos、YARN、Kubernetes等,进行任务的调度和监控。使用流批一体数据存储系统:流批一体数据存储系统是一种将流式数据和批量数据进行统一存储和管理的系统,如Apache Kafka、Hadoop等。通过以上步骤,可以实现基于Flink和Hive的流批一体架构,实现实时流处理和离线批处理的整合,提高数据处理效率和实时性。同时,通过Hive提供的强大的查询和分析功能,可以对数据进行深入的分析和挖掘。

2023-12-19 16:42:46 1385 1

原创 【Kafka架构及应用】

总之,Kafka在大数据中的应用非常广泛,它为实时数据流处理、消息传递、日志收集和分析等场景提供了强大的支持。配置Kafka:在配置Kafka之前,需要了解和确定一些关键参数,如Kafka集群的名称、端口、数据存储目录等。通过将数据复制到多个Kafka集群中的主题,可以实现数据的冗余存储和容错性。选择适合你操作系统的版本进行下载。Topic:消息的逻辑容器,可以理解为消息的类别或主题,每个消息都会被发布到一个特定的主题。每个Broker接收到消息后,根据消息的主题和分区信息,将消息存储到对应的分区中。

2023-12-19 15:24:59 960 1

原创 【如何在OpenCV中实现实时人脸识别并存储结果到NoSQL数据库】

加载人脸识别模型:下载和加载人脸识别模型,例如OpenCV自带的Haar级联分类器或基于深度学习的人脸识别模型(如Dlib库的人脸检测模型)。安装OpenCV库和NoSQL数据库:首先,确保使用pip或conda等工具安装OpenCV库和所需的NoSQL数据库(如MongoDB)。存储识别结果到NoSQL数据库:将识别结果存储到NoSQL数据库中。根据所选的数据库,使用相应的库和方法将识别结果插入到数据库中。初始化NoSQL数据库连接:根据所选的NoSQL数据库,使用相应的库和方法初始化数据库连接。

2023-12-15 16:24:15 610

原创 【图像分类模型--OnnRunTime】

OnnRuntime是一个用于执行ONNX模型的Python库,它提供了一个简单的API,使得使用ONNX模型变得非常容易。使用OnnRuntime,用户可以轻松地执行预测、推理和评估ONNX模型,同时还可以进行调试和优化。在这个例子中,我们首先加载一个ResNet50v2模型文件“resnet50v2.onnx”,然后使用PIL库加载一个样例图像。接下来,我们对图像进行一些预处理,然后在输入到模型中进行预测。最后,我们使用一个包含预测标签的文本文件,将模型输出中的前5个最高置信度标签打印出来。

2023-12-12 09:43:21 419

原创 XGboost和scikit-learn 的gradient boost比较

XGBoost与sklearn的Gradient Boosting都是基于树模型的集成学习算法,它们都使用相似的梯度提升算法来训练模型。但是,在一些方面,XGBoost比sklearn的Gradient Boosting更有优势。优势体现在速度,可扩展性,鲁棒性和准确性上。

2023-11-29 20:37:29 416 1

原创 sklearn中,fit, fit_transform和transform的区别

需要注意的是,所有的Estimator类都必须提供fit和transform方法,而fit_transform方法是可选的。在scikit-learn中,fit,fit_transform和transform是Estimator类中的方法,通常用于数据预处理和模型训练。通常用于将数据集转换为一组新的特征表示,以供模型使用。fit_transform(): 用于将数据集拟合和转换为新特征表示。这个方法通常用于将训练集拟合到模型中,并生成新的特征表示来训练模型。对于fit方法,通常需要手动指定参数。

2023-11-29 13:07:57 596 1

原创 model.fit()调参

以上是一些常见的可以调整的参数,不同的模型和任务还有一些其他的参数可以进行调整。可以调整批量大小以影响模型的训练速度和准确性,通常情况下批量大小越大,训练速度越快,但是可能会导致模型的泛化能力降低。:训练轮数,即将所有的训练样本都用于训练的次数。:用于验证模型的数据集,可以将验证数据集从训练数据集中分离出来,以进一步判断模型的准确性。可以选择不同的损失函数,以适应不同的任务。可以选择不同的优化器,以影响模型的训练速度和准确性。:评价指标,用于评估模型的准确性。可以选择不同的评价指标,以适应不同的任务需求。

2023-11-22 16:05:30 511

原创 基于Python实现向数据库定时插入数据记录

基于Python实现向mysql数据库定时插入数据记录

2023-11-17 15:48:04 178 1

原创 KNN算法模型及优缺点

K-均值聚类是一种无监督学习算法,用于将数据集中的数据点分成 K 个簇,以便簇内的数据点相似度最高,而不同簇之间的数据点相似度最低。总之,K-均值聚类算法是一种简单有效的聚类算法,在实践中广泛应用,但是在数据集选择、初始聚类中心的选择等方面需要注意一些细节,以获得更好的聚类效果。个样本的类别出现频率,选择出现频率最高的类别作为新样本。将每个数据点分配到距离它最近的聚类中心所在的簇中。算法对初始聚类中心的选择敏感,可能导致结果不稳定。计算每个簇的中心点,将其作为新的聚类中心。算法简单,易于实现和理解。

2023-11-16 16:59:38 81 1

原创 Python查询函数具体用法和参数

函数的具体用法和相关的文档说明。函数来查看某个函数的具体用法。在Python中,可以使用。

2023-11-16 16:43:12 116 1

原创 Apache Spark基本概念

在大数据分析中,Spark 可以处理各种类型的数据,包括结构化数据、半结构化数据和非结构化数据。Apache Spark 是一种快速、高效的通用分布式计算引擎,具有内存计算和迭代计算的能力。RDD(Resilient Distributed Datasets):是 Spark 的核心数据模型,表示一个不可变的分布式数据集合,可以存储在内存或磁盘上。MLlib:是 Spark 的机器学习库,支持数据预处理、分类、聚类、回归等机器学习算法。GraphX:是 Spark 的图形处理库,支持图形计算和分析。

2023-11-15 15:37:57 69

原创 Excel常用快捷键

以上仅是一部分Excel常用快捷键,还有很多其他的快捷键可以提高你的工作效率。

2023-11-15 15:25:15 64

原创 达梦--存储过程创建定时任务插入数据

在达梦数据库中,存储过程可以使用PL/SQL语言编写,包括变量声明、条件语句、循环语句、游标、子程序等语法结构,同时还支持事务控制、异常处理、存储过程参数传递等功能。当存储过程被调用时,会将指定员工的薪水加上输入的salary值,并输出执行结果。达梦存储过程(PL/SQL)是达梦数据库管理系统中的一种编程语言,可以用于创建复杂的数据处理逻辑,实现业务逻辑的封装和复用,并提高数据库的性能和安全性。这样,存储过程和定时任务就创建完成了,当定时任务启动时,将自动执行存储过程,实现从一个表插入到另一个表的功能。

2023-11-09 10:19:52 1434 1

原创 sns.displot报错OptionError: “No such keys(s): ‘mode.use_inf_as_null‘“如何处理?

图形数据不显示,如图:

2023-06-12 14:59:00 6058 3

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除