自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

L

通俗

  • 博客(262)
  • 收藏
  • 关注

原创 徒手实践深度学习完整项目(一)——图像识别(基于深度学习框架TensorFlow2.0、Keras,含构建原理、代码和部署细节)

目录CIFAR-10数据集简介项目环境项目实践项目部署CIFAR-10数据集简介 官网下载地址:《CRFAR-10数据集》 CIFAR-10数据集由Alex Krizhevsky, Vinod Nair和Geoffrey Hinton收集。如图:一共包含10 个类别的RGB 彩色图片:飞机( airplane )、汽车( aut...

2020-04-17 20:42:40 843

原创 word2vec和doc2vec模型详解及应用

词袋模型(Bag of Word Model) 将所有词语装进一个袋子里,不考虑其词法和语序的问题,即每个词语都是独立的。例如如下2个例句:Jane wants to go to Shenzhen.Bob wants to go to Shanghai.就可以构成一个词袋,袋子里包括{ Jane,wants,to,go,Shenzhen,Bob,Shangh...

2020-04-11 19:13:03 1468 1

原创 Java死锁分析(jstack、jconsole、JProfiler、Linux和Windows)

死锁代码示例/** * Created by leboop on 2019/1/16. */public class DeadLock implements Runnable { private String a = ""; private String b = ""; public DeadLock(String a, String b) { ...

2019-01-16 22:29:52 1850

转载 模拟登录(Python)

"""模拟登录"""import requestsfrom lxml import etreeEMAIL = '********'PASSWORD = '********'class Login(object): def __init__(self): self.session = requests.Session() self.head...

2019-01-14 18:58:00 2070 1

原创 验证码识别(Python)

图形验证码识别        图形验证码最早出现,也很常见,一般由4个字母或者数字组成。例如,中国知网注册页面采用的就是图形验证码,链接为http://my.cnki.net/elibregister/commonRegister.aspx,页面如下:该注册页面表单最后一项就是图形验证码,必须正确输入图形验证码才可以完成注册。该图形验证码其实是一张图片,上面是经过变形的4个大写字母,并...

2019-01-10 13:06:13 1329

原创 机器学习之支持向量机SVM(理论基础)

本文符号约定参见《 机器学习之矩阵微积分及其性质》。考虑如下一般形式的约束优化问题(constrained optimization problem): ...

2018-12-22 01:44:52 2599 1

原创 Linux系统安装Python3环境(超详细)

本文基于如下Linux系统版本:1、默认情况下,Linux会自带安装Python,可以运行python --version命令查看,如图:我们看到Linux中已经自带了Python2.7.5。再次运行python命令后就可以使用python命令窗口了(Ctrl+D退出python命令窗口)。2、查看Linux默认安装的Python位置看到/usr/bin/python...

2018-12-05 14:31:15 223483 78

原创 Spark 2.3.0 Structured Streaming详解

 一、什么是Structured Streaming       结构化流(Structured Streaming)是一个建立在Spark SQL引擎之上可扩展且容错的流处理引擎。你可以使用与静态数据批处理计算相同的方式来表达流计算。当不断有流数据到达时,Spark SQL引擎将会增量地、连续地计算它们,然后更新最终的结果。最后,系统通过检查点和预写日志的方式确保端到端只执行一次的容错保证。...

2018-08-13 21:29:19 10033 1

原创 Quinlan C4.5剪枝U(0,6)U(1,16)等置信上限如何计算?

f可以是E/N,有时候用修正的f=(E+0.5)/N。猜测Quinlan使用是f=(E+0.5)/N,而且使用了如下两个值进行线性插值计算。之前看到Quinlan中关于C4.5决策树算法剪枝环节中,关于错误率e置信区间估计,为啥。当E=0时,U(0,1)=0.75,U(0,6)=0.206,U(0,9)=0.143?本文将给出本作者的一个大胆猜测。(2)对于E不为0的情况。

2025-01-15 20:32:56 300

原创 公开-自动数据挖掘与分析实操代码(免费领取)

本项目旨在自动实现数据挖掘与分析全流程,为用户更快速、精准洞察数据价值。凡订阅如下专栏之一的读者:自然语言处理&大模型数据分析&大模型机器学习&大模型均可免费领取自动数据挖掘与分析实操完整代码。自动数据分析模块主要分为:1、数据接入2、数据探索3、数据处理4、数据切分5、数据模型(模型选择、数据建模、模型评估、模型调优、模型预测)。

2024-11-06 15:06:52 804

原创 自动数据挖掘与分析实操代码(免费领取)

本项目旨在自动实现数据挖掘与分析全流程,为用户更快速、精准洞察数据价值。凡订阅如下专栏之一的读者:自然语言处理&大模型数据分析&大模型机器学习&大模型均可免费领取自动数据挖掘与分析实操完整代码。自动数据分析模块主要分为:1、数据接入2、数据探索3、数据处理4、数据切分5、数据模型(模型选择、数据建模、模型评估、模型调优、模型预测)。

2024-11-06 12:53:20 135

原创 PART 1 数据挖掘概论 — 数据挖掘方法论

CRISP-DM(Cross-Industry Standard Process for Data Mining)是一种广泛使用的数据挖掘过程框架,由SPSS公司提出。SEMMA(Sample, Explore, Modify, Model, and Assess)是另一种数据挖掘方法论,由SAS公司提出。数据库知识发掘(Knowledge Discovery in Database,KDD)是从数据库中的大量数据中发现不明显、之前未知、可能有用的知识。(data mining)和。

2024-10-29 10:14:06 472

原创 ChatGLM + LangChain + Gradio构建前后端分离的大模型应用程序

ChatGLM-6B中英双语对话大模型Windows本地部署实战-CSDN博客LangChain是一个用于开发由大型语言模型(llm)支持的应用程序的框架。LangChain简化了LLM应用程序生命周期的每个阶段:(1)开发:使用LangChain的开源构建块组件和第三方集成来构建应用程序。使用LangGraph构建具有一流的流和人在循环支持的有状态代理。(2)产品化:使用LangSmith来检查、监控和评估您的链,以便您可以自信地持续优化和部署。

2024-10-28 11:35:26 152

原创 ChatGLM-6B LoRA微调实战(含完整代码)

本文将使用LoRA微调方法对ChatGLM-6B大模型进行微调。

2024-10-24 15:03:38 269

原创 ChatGLM-6B大模型 + Bert预训练模型 + RAG实现知识库信息抽取(含完整代码)

‌本文将基于ChatGLM-6B大模型、Bert预训练模型和RAG完整金融知识库信息抽取任务。

2024-10-21 22:01:05 347

原创 ChatGLM-6B和Prompt搭建专业领域知识问答机器人应用方案(含完整代码)

本文基于ChatGLM-6B大模型和Pompt提示工程搭建医疗领域知识问答机器人为例。

2024-10-21 10:47:43 823

原创 连接不上hugging face的解决方法

【代码】连接不上hugging face的解决方法。

2024-10-20 12:44:17 452

原创 ChatGLM-6B中英双语对话大模型Windows本地部署实战

ChatGLM是智谱清言大模型的开源版本,目前有ChartGLM、ChatGLM2、ChatGLM3和GLM-4版本。ChatGLM:GitHub - THUDM/ChatGLM-6B: ChatGLM-6B: An Open Bilingual Dialogue Language Model | 开源双语对话语言模型简介:中文领域效果最好的开源底座模型之一,针对中文问答和对话进行了优化。经过约 1T 标识符的中英双语训练,辅以监督微调、反馈自助、人类反馈强化学习等技术的加持。

2024-10-19 16:55:23 333

翻译 PyTorch从零实现和可视化Transformer注意力(Additive Attention、Scaled Dot Product Attention、Multi-Head Attention)

上面公式没有体现批量操作,每个矩阵可以添加batch_size维度,例如Q的维度为(batch_size,n,d)。

2024-10-16 10:55:15 205

原创 使用PyTorch从0实现Fashion-MNIST数据集分类

【代码】使用PyTorch从0实现Fashion-MNIST数据集分类。

2024-10-12 20:37:00 434

原创 Windows11安装CUDA、cuDNN、PyTorch详解

‌cuDNN(CUDA Deep Neural Network library)是一个由NVIDIA开发的深度学习GPU加速库,旨在为深度学习任务提供高效、标准化的原语(基本操作)来加速深度学习框架在NVIDIA GPU上的运算。此外,PyTorch还具有高度的灵活性和可扩展性,支持多种硬件平台,并且有一个活跃的社区,提供了大量的教程和资源,使得用户可以快速上手并解决实际问题。PyTorch的核心特点包括:‌12。可以看到NVIDIA GPU驱动版本为546.56,支持的CUDA最高版本为12.3。

2024-10-12 08:33:59 6123 8

原创 使用keras搭建GRU神经网络创作莎士比亚小说

【代码】使用keras搭建GRU神经网络创作莎士比亚小说。

2024-10-08 15:55:50 301

原创 使用keras-tuner微调神经网络超参数

本文将介绍keras-tuner提供了三种神经网络超参数调优方法。它们分别是随机搜索RandomSearch、HyperBand和贝叶斯优化BayesianOptimization。

2024-10-06 10:16:55 293

原创 使用TensorBoard可视化模型

TensorBoard是一款出色的交互式的模型可视化工具。安装TensorFlow时,会自动安装TensorBoard。

2024-10-05 22:02:07 366

原创 Ollama本地私有化部署通义千问大模型Qwen2.5

Qwen是阿里巴巴集团Qwen团队的大型语言模型和大型多模态模型系列。现在大型语言模型已经升级到Qwen2.5。语言模型和多模态模型都是在大规模多语言和多模态数据上进行预训练的,并在符合人类偏好的高质量数据上进行后训练。Qwen具有自然语言理解、文本生成、视觉理解、音频理解、工具使用、角色扮演、人工智能代理等功能。在Qwen2发布的过去三个月里,许多开发人员在Qwen2语言模型上构建了新的模型,向我们提供了宝贵的反馈。在此期间,我们专注于创建更智能、知识更丰富的语言模型。

2024-09-26 14:39:40 3997

原创 机器学习实战—天猫用户重复购买预测

商家有时会在特定日期,例如节礼日(Boxing-day),黑色星期五或是双十一(11月11日)开展大型促销活动或者发放优惠券以吸引消费者,然而很多被吸引来的买家都是一次性消费者,这些促销活动可能对销售业绩的增长并没有长远帮助,因此为解决这个问题,商家需要识别出哪类消费者可以转化为重复购买者。通过对这些潜在的忠诚客户进行定位,商家可以大大降低促销成本,提高投资回报率(Return on Investment, ROI)。众所周知的是,在线投放广告时精准定位客户是件比较难的事情,尤其是针对新消费者的定位。

2024-09-18 22:27:02 694

原创 模型验证 — 交叉验证Cross Validation的方法

交叉验证(Cross Validation)是验证模型性能的一种统计分析方法,其基本思想是在某种意义下将原始数据进行分组,一部分作为模型的训练数据集(训练集),另一部分作为模型的验证数据集(验证集)。首先用训练集对模型进行训练,再利用验证集来测试训练得到的模型,以此来作为评价模型的性能指标。常用的交叉验证方法有简单交叉验证、K折交叉验证、留一法交叉验证和留P法交叉验证。本文以一个模拟的线性回归模型为例来介绍各种交叉验证方法。

2024-09-18 13:48:31 426

原创 Level3 — PART 3 — 自然语言处理与文本分析

N-Gram 分词分词及词性标注的难点法则式分词法。

2024-09-08 12:41:37 310

原创 Level3 — PART 2 — 高级数据处理与特征工程

高级数据预处理高级数据预处理。

2024-09-05 12:23:17 154

原创 Level3 — PART 4 机器学习算法 — 集成学习

集成学习(Ensemble Learning)作为一种流行的机器学习,它通过在数据集上构建多个模型,并集成所有模型的分析预测结果。常见的集成学习算法包括:随机森林、梯度提升树、XGBoost等。集成学习的目标:通过考虑多个评估器的预测分析结果,汇总后得到一个综合的结果,以达到比单个模型更好的回归/分类性能的结果。多个模型集成的模型叫做集成评估器(ensemble estimator),其中的每个模型叫做基评估器(base estimator)。

2024-09-02 21:41:31 248

原创 Level3 — PART 4 — 机器学习算法 — 序列模式

在关联规则挖掘中,更关注项集和项集(或两个项)同时出现的关系,而忽略了数据中的序列信息,例如时间、空间等。序列模式挖掘(sequence pattern mining)最早是由Agrawal和Srikant提出的,它在关联规则基础之上,挖掘相对时间(空间)或其他模式出现频率高的模式,典型的应用还是限于离散型的序列。

2024-08-29 16:48:37 116

原创 Level3 — PART 4 — 机器学习算法 — 模型评估

目录模拟题CDA LEVEL III 模拟题(一)CDA LEVEL III 模拟题(二) 关于模型评估,读者可以阅读如下几篇文章:分类模型评估:第7章-使用统计方法进行变量有效性测试-7.5.4-模型评估-CSDN博客聚类模型评估:第9章-用户分群方法-聚类评估指标-CSDN博客回归模型评估:第7章-使用统计方法进行变量有效性测试-7.5-逻辑回归-CSDN博客第7章-使用统计方法进行变量有效性测试-7.4.2-多元线性回归-CSDN博客第7章-使用统计方法进行变量有效性测试-7.4.1-

2024-08-29 11:48:38 141

原创 Level3 — PART 4 — 机器学习算法 — 关联规则

Apriori算法是一种经典的关联规则数据挖掘算法,主要用于在给定数据集中发现频繁项集和关联规则。该算法最早是由Rakesh Agrawal等人在1993年提出的。最初提出的动机是针对购物篮分析问题提出的,其目的是为了发现交易数据库中不同商品之间的联系规则。这些规则可以刻画顾客的购买行为模式,对于商家来说,可以用来指导科学地安排进货、库存以及货架设计等。Apriori算法的名字来源于算法基于先验知识(prior knowledge)来压缩搜索空间,提高算法效率。

2024-08-28 16:10:07 187

原创 Level3 — PART 4 机器学习算法 — 决策树

决策树主要由节点和有向边构成,节点主要分为和(1)根结点(root node):没有入边,但有零条或多条出边(2)内部结点(internal node):恰有一条入边和 两条或多条出边(3)叶结点(leaf node):恰有一条入边,无出边。如图:虽然在一些资料中提到外部节点,但在决策树的基本构成中,外部节点并不是一个独立的节点类型。通常,叶节点已经涵盖了外部节点的概念,即它们是决策树的最终输出点。决策树既可以用来解决分类问题,也可以用来解决回归问题,通常分为和。

2024-08-27 16:22:27 326

原创 Level3 — PART 4 机器学习算法 — 朴素贝叶斯

贝叶斯定理由英国数学家发展,用来描述两个条件概率之间的关系,比如和和是两个随机事件。按照乘法法则,可以立刻导出:其中表示随机事件和随机事件同时发生的概率,表示在事件发生的情况下,事件发生的概率,类似地,表示在事件发生的情况下,事件发生的概率。

2024-08-24 15:06:29 486

原创 Flink CDC Standalone模式部署及Flink CDC Job提交

独立模式(Standalone mode)是Flink最简单的部署模式。本文将介绍如何下载、安装和运行Flink CDC。Flink CDC是基于Flink开发的一个流式数据集成工具。所以按照Flink CDC需要事先按照Flink。具体安装请参见。本文选用Flink CDC 3.1.0和Flink 1.17.2。

2024-08-23 09:57:02 694

原创 Apache Doris安装部署

Apache Doris官网主页如下:Apache Doris介绍:Apache Doris 简介 - Apache Doris。

2024-08-22 10:21:43 463

原创 FlinkCEP - Flink的复杂事件处理详解

FlinkCEP是在Flink之上实现的复杂事件处理(CEP)库。它允许在无尽的事件流中检测事件模式,使您有机会掌握数据中重要的内容。FlinkCEP类似字符串中,使用正则表达式检测感兴趣的字符串。如果您想直接开始,可以设置Flink程序并将FlinkCEP依赖项添加到项目的pom.xml中。2.12为scala版本,1.71.1为flink版本。FlinkCEP不是二进制发行版的一部分。

2024-08-21 12:32:35 344

原创 Table API & SQL之时区Time Zone详解

事件时间属性是使用CREATE table DDL中的WATERMARK语句定义的。watermark语句在已有的事件时间字段上定义一个watermark生成表达式,将该事件时间字段标记为事件时间属性。Flink支持在TIMESTAMP列和TIMESTAMP_LTZ列上定义事件时间属性。如果源中的时间戳数据表示为年-月-日-小时-分-秒,通常是一个不带时区信息的字符串值,例如) WITH (...

2024-08-19 15:48:52 313

原创 Table API之用户自定义函数User-defined Functions详解

目前,Flink区分了以下几种函数:(1)标量函数()将标量值映射到新的标量值。(2)表函数()将标量值映射到新行。(3)聚合函数()将多行的标量值映射到新的标量值。(4)表聚合函数()将多行的标量值映射到新行。(5)异步表函数()是表源执行查找的特殊函数。下面的示例展示了如何创建一个简单的标量函数,以及如何在Table API和SQL中调用该函数。对于SQL查询,函数必须始终以名称注册。对于Table API,可以注册函数或直接内联使用函数。

2024-08-18 16:34:54 92

第7章-使用统计方法进行变量有效性测试-7.2.2-多因素方差分析

第7章-使用统计方法进行变量有效性测试-7.2.2-多因素方差分析

2023-11-17

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除