- 博客(124)
- 资源 (3)
- 问答 (1)
- 收藏
- 关注
原创 一文搞懂基于gradio的客服助手多用户隔离使用
简单易用,适合存储小量数据(如对话历史)。IndexedDB:功能强大,适合存储大量结构化数据。Gradio 结合 JavaScript:通过_js参数调用自定义的 JavaScript 函数,可以轻松实现浏览器端的数据存储与读取。无论是还是IndexedDB,它们都提供了持久化存储的能力,确保用户在刷新页面或重新打开浏览器后仍能保留对话历史。
2025-04-23 13:16:08
318
原创 一文搞懂模型训练可视化
我们将逐步构建一个完整的训练脚本,并在其中嵌入 TensorBoard 的各种功能。以上表格提供了一个关于如何配置TensorBoard的概览,实际使用时可能还需要根据具体需求和环境进行调整。我们以 MNIST 数据集为例,训练一个简单的卷积神经网络(CNN),并在训练过程中使用 TensorBoard 记录和可视化各种信息。请注意,这里列出的是最常用的参数,并非全部。指定日志目录的路径,TensorBoard将从该目录中读取事件文件。指定TensorBoard使用的端口号,默认为6006。
2025-04-18 17:06:41
1034
原创 一文搞懂GPU利用率
通过调整 Batch Size、使用混合精度训练、优化数据加载、限制显存占用等方法,可以有效提高 GPU 的利用率。同时,实时监控 GPU 状态(如使用nvidia-smi)有助于发现瓶颈并优化代码。
2025-04-17 23:26:14
436
原创 一文搞懂搭建torch的docker版本环境及显卡设置
使用环境变量是最简单的方式,适用于大多数场景。如果需要更复杂的资源分配(如 Docker Swarm 模式),可以使用。在指定 GPU 编号之前,请确保通过nvidia-smi确认主机上的 GPU 编号。
2025-04-17 12:22:15
349
原创 一文搞懂MNIST分类任务(三)GPU版-全部ID
要将代码修改为在所有可用的 GPU 上运行,可以使用或者更现代的方法。以下是基于的实现,它是一个简单的解决方案,适用于多 GPU 环境。
2025-04-17 12:18:50
308
原创 一文搞懂MNIST分类任务(一)CPU版
定义了一个简单的卷积神经网络(CNN),包含一个卷积层、池化层和两个全连接层。最后一层输出大小为 10,对应 MNIST 数据集的 10 个类别。
2025-04-17 12:17:18
308
原创 一文搞懂前后端传递Dataframe的逻辑
zlib和gzip适合大多数通用场景,提供良好的压缩率和性能。lzma提供非常高的压缩率,但压缩和解压缩速度较慢。bz2提供中等的压缩率和速度。brotli是一种现代压缩算法,特别适用于 Web 内容的压缩。根据你的具体需求选择合适的压缩算法。如果对压缩时间不敏感且需要高压缩率,可以选择lzma或brotli;如果需要平衡压缩率和处理速度,可以选择zlib或gzip。
2025-04-17 12:10:15
244
原创 解释 RESTful API,以及如何使用它构建 web 应用程序。
它通过使用标准的 HTTP 方法(如 GET、POST、PUT、DELETE)和状态码来实现客户端和服务器之间的通信。通过以上步骤,可以基于 RESTful API 构建一个符合 REST 架构风格的 web 应用程序,实现客户端和服务器之间的数据交互和通信。RESTful API 的设计规范和标准化让不同的应用能够更加灵活地进行集成和交互,提高了应用程序的可扩展性和可维护性。处理认证和授权:根据应用需求,需要在 RESTful API 中实现用户认证和授权的功能,确保数据的安全性和合法性。
2025-04-15 12:29:35
147
原创 一文搞懂全连接层
全连接层是深度学习模型的重要组成部分,尤其在卷积神经网络中起到了关键作用。通过合理设计输入和输出维度,并结合激活函数、Dropout 等技术,全连接层能够有效地完成各种任务,如分类、回归和生成等。理解和掌握全连接层的使用方法,对于构建高效的深度学习模型至关重要。
2025-04-15 12:20:00
1818
原创 一文搞懂Embedding
是 PyTorch 中非常重要的模块,用于将离散的符号(如单词)映射为连续的向量表示。通过合理地选择和,并结合预训练的词向量,可以显著提升模型的性能。
2025-04-15 12:13:32
895
原创 一文搞懂二维卷积
nn.Conv2d是处理二维数据的重要工具,尤其是在图像处理领域。通过灵活配置其参数,我们可以有效地从输入数据中提取出有用的特征。理解这些参数的作用对于设计有效的卷积神经网络至关重要。
2025-04-15 12:07:08
499
原创 一文搞懂激活函数
激活函数通过引入非线性特性,使得神经网络能够学习复杂的模式和特征。ReLU: 简单高效,适合大多数场景。: 改善了 ReLU 的“死亡神经元”问题。: 适合特定任务(如 RNN),但容易导致梯度消失。Softmax: 常用于多分类任务。Swish: 性能优越,适合深层网络。根据任务需求选择合适的激活函数,并结合其他组件(如卷积层、归一化层等),可以构建高效的深度学习模型。
2025-04-11 23:36:11
1391
原创 一文搞懂池化层
最大池化:适合提取显著特征,常用于分类任务。均值池化:适合保留更多背景信息,适用于需要全局上下文的任务。两者可以根据任务需求灵活组合使用,例如在浅层网络中使用最大池化,在深层网络中使用均值池化。无论是二维还是三维的数据,都可以根据具体的应用场景选择合适的池化操作。
2025-04-11 23:29:54
343
原创 一文搞懂图片检索中的异步操作
asyncio.Semaphore(3) 限制了最多3个并发任务。在 jupyter 里打印信息不回马上显示。display("一些输出信息")# 在需要刷新输出的地方调用。
2025-04-10 15:48:29
202
原创 一文搞懂文件的常用操作
假设你有多个字典,每个字典代表一行数据。你可以将这些字典转换为 JSON 格式的字符串,并逐行写入文件。注意安装:pip install pillow moviepy pydub。读取数据时,可以逐行读取文件,并将每一行解析为字典。注意安装:pip install moviepy。注意安装:pip install pydub。
2025-04-10 15:47:18
350
原创 DeepSeek-R1技术解析
deepseek-ai/DeepSeek-R1 (github.com)[2501.12948v1] DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning (arxiv.org)[DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning] (arxiv.org)We introduce ou
2025-04-10 15:37:32
739
原创 dataframe常见的多表操作
除了内置的聚合函数(如summean),还可以使用自定义函数。groupby()agg():适用于简单的分组聚合。:适用于多维数据的透视表分析。自定义聚合函数:灵活性高,可满足复杂需求。滚动窗口聚合:适用于时间序列或连续数据。apply():支持复杂的分组逻辑。假设需要根据某些规则动态生成新列。:适合按分隔符拆分字符串。:适合分类值的独热编码。explode():适合多标签分类值的独热编码。自定义逻辑:适合复杂的数据拆分需求。根据具体需求选择合适的方法即可!字符串拼接:适合简单的字段合并。
2025-04-10 15:29:35
432
原创 Dataframe常用操作合集
1.2. 未知数据创建1.3. 列表字典创建2. 更新表格列名2.1. 创建时指定列名在创建 时,可以通过 参数直接指定列名。2.2. 2. 创建后修改列名2.2.1. 使用 属性可以直接赋值给 属性来修改列名。2.2.2. 使用 方法 方法可以用来重命名特定的列。2.2.3. 从文件读取时指定列名如果你是从文件(如 CSV 文件)读取数据,可以在读取时指定列名。2.2.4. 从列表或元组创建列名你也可以从列表或元组中创建列名
2025-04-10 15:27:32
1148
原创 一文搞懂Datafram【附工作积累的常用片段】
1.2. 未知数据创建2. 更新表格列名2.1. 创建时指定列名在创建 时,可以通过 参数直接指定列名。2.2. 2. 创建后修改列名2.2.1. 使用 属性可以直接赋值给 属性来修改列名。2.2.2. 使用 方法 方法可以用来重命名特定的列。2.2.3. 从文件读取时指定列名如果你是从文件(如 CSV 文件)读取数据,可以在读取时指定列名。2.2.4. 从列表或元组创建列名你也可以从列表或元组中创建列名。3. 基本属性和统计信息
2024-11-13 19:19:29
616
1
原创 一文搞回qdrant
官网文档:Home - QdrantGithub地址:qdrant/qdrant: Qdrant - High-performance, massive-scale Vector Database for the next generation of AI. Also available in the cloud https://cloud.qdrant.io/ (github.com)https://github.com/qdrant/qdrant官网:Qdrant - Vector Data
2024-11-05 16:39:12
840
原创 一文搞懂heapq
heapq模块是python库中实现的小顶堆相关的函数的集合。对外暴露的接口函数有'heappush', 'heappop', 'heapify', 'heapreplace', 'merge', 'nlargest', 'nsmallest', 'heappushpop'。在Python中,heapq模块提供了对小顶堆(Min Heap)的支持。小顶堆是一种数据结构,其中每个节点的值都小于或等于其子节点的值。这意味着堆的根节点始终是最小的元素。
2024-09-03 13:21:07
1497
原创 dlib库快速构建人脸识别
概念:引入自2002年以来,Davis King一直是dlib的主要作者。dlib为每个类和函数提供了完整的文档说明。同时还提供了debug模式,打开debug模式后,开发者能够调试代码,查看变量和对象的值,快速定位错误点。不依赖第三方库,就是这么高傲。因此我们无需安装和配置,并且在windows,Mac OS , Linux系统上轻松驾驭。截止2022年5月12日,github上已有个11.1Kstart, 用户量14K,贡献者161人,可见受欢迎程度还是挺不错的。它是一个高性能的计算框架。它是一个C++
2022-05-12 15:06:48
2090
原创 PaddlePaddle在预测图像时出现错误EnforceNotMet: Conv intput should be 4-D or 5-D tensor
BUG:Expected in_dims.size() == 4 || in_dims.size() == 5 == true, but received in_dims.size() == 4 || in_dims.size() == 5:0 != true:1.在运行Paddle教程的时候,会出现在数据加载的时候,数据纬度错误维内托,导致在徐念阶段报错Expected in_dims.size() == 4 || in_dims.size() == 5 == true, but received
2021-12-11 15:22:02
3409
原创 Transformer堪比CV界的ImageNet, NLP战场的主力军
说到Transformer, 可谓是NLP领域的一员猛将! 您应该会看到类似的架构.在NLP领域,科学家们做一一系列的尝试必入tf-idf,word2vec,glove,emlo,SVD的等一系列的预训练模型探索,可惜随着社会的进进步,需要文本表达更加准确,因为文本在计算机里面需要使用向量表达出来.相当于一句话,经过中间人传达,第三方收到消息,作出反应,如果第一个人给第二个人的消息不能很好的表达,第三个人岂不是GG了. 在NLP里面也是一样的, 就拿NER来说吧,对于序列问题,每个字需要soft max
2020-08-25 18:02:46
290
原创 原来word2vec可以这么简单
说到Word2vec,它可谓非结构化数据里面的佼佼者,尤其是在推荐和NLP当中, 足以体现它的优势所在,并且多年一直备受工业界喜爱. 那么word2vec到底是怎么个原理的, 发现身边总是有很多人问, 确不能准确的说出为什么是两个矩阵, 到底是怎么自动反向传播的, 以及对于softMax之后那么大的维度数据,是怎么加速计算的,本文就在这这里做一简单概述.Word2vec实际是一种浅层的神经网络, 它有两种网路结构,分别是CBOW(Continus Bag of Words)和Skip-Gram.通常我们
2020-08-21 22:22:29
518
原创 文本对分类以及多标签分类问题的解决思路
现实生活中,有大量的文本需要人工区分类,而自然语言相关技术的发展使得人们可以通过算法的手段代替手工,极大的加速了社会的发展. 而文本分类任务一直是NLP一只老掉牙的事,从常规的新闻文本分类到特定领域的多类分类(Multiclass classification) 和多标签分类(Multilabel classification).对于多类别分类,就是说在分类任务中, 有n种类别的事物, 而且每一个事物有且仅有一个标签. 这类任务的难点在于, 数据的 极度不平衡, 就拿天池最近的一个入门赛来说, 对于星座
2020-08-17 23:45:13
1432
原创 文本如何在计算机中表示
计算机擅长处理数据,但是我们日常生活中使用的文字应该如何表示成计算机可以看懂的文字呢?对此,自然语言处理(NLP)便成为了一个重要的研究领域,如何表示文本这种非结构化的数据又是NLP的一个重要方向.近年来常见的的文本表示模型有词袋模型(Bag of Words),TF-IDF(Term Frequency-Inverse Document Frequency),主题模型(Topic Model),词嵌入模型(Word Embedding). 它们的作用都是讲文本按照一定的规律,通过向量表示,向量及所含文字
2020-08-17 22:41:46
527
原创 Hanlp在Python环境中安装及使用.md
什么是HanlpHanLP是由一系列模型与算法组成的Java工具包,目标是普及自然 语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构 清晰、语料时新、可自定义的特点。功能:中文分词 词性标注 命名实体识别 依存句法分析 关键词提取 新词发现 短语提取 自动摘要 文本分类 拼音简繁Hanlp环境安装• 1、安装Java和Visual C++:我装的是Java 1.8和Visual C++ 2015。 • 2、安裝Jpype,conda install -c conda-forge j
2020-07-29 17:44:56
3254
原创 剑指 剪绳子动态规划
最近感觉动态规划的题又忘了,索性回过头来再刷一遍题目:剑指 Offer 14- I. 剪绳子链接:https://leetcode-cn.com/problems/jian-sheng-zi-lcof/这到题首先是找最优子问题的的关系式子设定dp[i]为长度为i的绳子最大成绩,那么它可以由三部分组成,参数含义:i:绳子长度,j:绳子长度为i的分割成一段是j的长度,dp[i-j]绳子长度为i的分割成j的长度,剩余部分继续再进行二次分割dp[i]:不需要分割,保持原来长度i-j:分割成两段j的长度
2020-07-29 09:12:29
172
原创 决策【Xgboost】在kaggle上的利器(四)
10 Xgboost 简介及其模型形式XGBOOST 是 GBDT 的一种,也是加法模型和前向优化算法。在监督学习中,可以分为:模型,参数,目标函数和学习方法模型:给定输入 x 后预测输出 y 的方法,比如说回归,分类,排序等。参数:模型中的参数,比如线性回归中的权重和偏置目标函数:即损失函数,包含正则化项学习方法:给定目标函数后求解模型和参数的方法,比如梯度下降法,数学推导等。这四方面的内容也指导着 XGBOOST 系统的设计。模型形式假设要判断一个人是否喜欢电脑游戏,
2020-07-06 15:00:37
316
原创 决策在kaggle上的利器(二)
本文继续接上一篇05 集成学习简介集成学习是通过构建并组合多个学习器来完成学习任务的算法集成学习常用的有两类Bagging:基学习器之间无强依赖关系,可同时生成的并行化方法Boosting:基学习器之间存在强烈的依赖关系,必须串行生成基分类器的方法Bagging (Bootstrap Aggregating)方法let n be the number of boostrap samplesfor i=1 to n do Draw boostrap samples of size m,D
2020-06-29 23:43:04
279
原创 决策在kaggle上的利器(一)
01-目录大纲决策树决策树的直观理解分类树回归树02-决策树的直观理解02 分类树-信息熵2-1 信息熵信息熵是用来衡量信息不确定性的指标,不确定性是一个事出现不同结果的可能性。计算方法如下所示H(x)=−∑i=1nP(X=i)log2P(X=i)H(x)=-\sum_{i=1}^nP(X=i)\log_2P(X=i)H(x)=−i=1∑nP(X=i)log2P(X=i)其中:P(X=i)P (X=i)P(X=i)为随机变量ⅹ取值为 i 的概率硬币P
2020-06-29 23:28:48
427
原创 关键字匹配有它, 你就是合格的算法工程师
这两天在构建医疗问答系统的时候, 碰到了有趣的算法,感觉骨骼比较惊奇, 于是记录一下。目的是构建医疗领域的一个actree,在neo4j数据库中查询一些字符的前期处理。 这个时候再用find()感觉自己就不是算法工程师了,这太没有效率了,而且你会发现在同时处理几千个任务的时候,会出现cpu的瓶颈。 如果采用ahocorasick来实现,可以很有效的减轻cpu的消耗。原项目部分代码如下(由于项目的保密性,这里显示部分代码)def build_actree(self, wordlist): """
2020-06-24 13:16:10
441
cmake-3.16.6-Darwin-x86_64.dmg
2020-04-18
pipeline.config
2019-08-21
decisinon_tree_computer.zip
2019-12-13
eclipse中的servlet问题
2016-07-31
TA创建的收藏夹 TA关注的收藏夹
TA关注的人