自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Talk is cheap. Show me the code

人生苦短,我用python······················································································C/C++/Java/JavaScript/Go...

  • 博客(164)
  • 收藏
  • 关注

原创 【数据挖掘】关系网络可视化

Pyvis 是一个 Python 库,用于创建和可视化网络图。它基于 Vis.js 库,可以生成交互式的 HTML 文件,让用户在网页上直观地查看和操作网络图。以下是 Pyvis 的主要功能和特点:1. 创建和可视化网络图:Pyvis 允许用户创建节点和边,并将其可视化。网络图可以是有向图或无向图。2. 集成 NetworkX:Pyvis 与 NetworkX 集成,可以直接从 NetworkX 图对象生成 Pyvis 图对象,方便用户将已有的 NetworkX 图转换为交互式的可视化图。

2024-07-24 16:28:22 374

原创 【数据挖掘】词云分析

Python 中的 WordCloud 库WordCloud 是一个 Python 库,用于生成词云图(Word Cloud),也称为文字云。词云图是可视化文本数据的一种方法,通过将文本中的单词以不同大小和颜色展示,以便更直观地显示出文本中单词的频率和重要性。

2024-07-23 20:35:10 663

原创 【数据挖掘系列】

1. 小说人物关系挖掘。

2024-07-23 12:09:41 96

原创 【Python】多语言识别库 langid

langid 是一个强大的语言识别库,除了基本的语言检测功能外,它还具有以下几个重要功能和特点:

2024-07-08 15:30:45 317 1

原创 【从零开始认识AI】梯度下降法

梯度下降法(Gradient Descent)是一种用于优化函数的迭代算法,广泛应用于机器学习和深度学习中,用来最小化一个目标函数。该目标函数通常代表模型误差或损失。基本思想是从一个初始点出发,通过不断沿着目标函数的负梯度方向更新参数,逐步逼近函数的局部最小值(或者全局最小值)。梯度是目标函数相对于参数的导数,因此,负梯度方向是函数值下降最快的方向。具体步骤如下:1. **初始化参数**:随机选择模型初始参数 \( \theta_0 \)。

2024-06-24 18:06:17 451

原创 德克萨斯大学奥斯汀分校自然语言处理硕士课程汉化版(第十一周) - 自然语言处理扩展研究

语言锚定强调的是将抽象的语言信息与具体、可感知的现实世界信息相结合,从而让机器能够更好地理解和生成语言。偏见和歧视(Bias and Discrimination),NLP模型可能会在种族、性别、宗教等方面表现出偏见,这通常源于训练数据中的不平衡和偏见。语言锚定涉及将语言单元(如词汇、短语、句子)与外部世界的物理实体和感知数据(如图像、视频、声音等)进行关联,实现基于真实世界情境的语言理解。多语言知识库和知识图谱,构建和使用多语言知识库,进行跨语言的知识推理和问答。

2024-06-15 11:30:29 1097

原创 德克萨斯大学奥斯汀分校自然语言处理硕士课程汉化版(第十周) - 自然语言处理应用

文本摘要(Text Summarization)是自然语言处理中的一个重要任务,旨在自动生成简洁明了的摘要,从而概括出原始文本的主要内容。文本摘要技术主要分为两大类:抽取式摘要(Extractive Summarization)和生成式摘要(Abstractive Summarization)。抽取式摘要通过选择和提取原文中的关键句子或段落生成摘要,而不改变原文的文字顺序和表述方式。词频统计(Term Frequency, TF):通过统计词频来判断句子的权重。

2024-06-15 11:29:48 886

原创 德克萨斯大学奥斯汀分校自然语言处理硕士课程汉化版(第九周) - 可解释性

这时,我们可以看到,例如“收入”对预测结果的正面影响最大,“年龄”对预测结果的负面影响最大等信息,从而更好地理解模型在这个特定示例中的决策依据。在图像分类任务中,如果大部分图像数据集中包含的某个类别背景一致(例如,猫的照片总是在室内),模型可能会将背景与类别关联起来,导致在不同背景下的图像分类效果不佳。在机器学习和自然语言处理中,标注伪影(Annotation Artifacts)指的是在数据标注过程中引入的非预期或有偏的特征,这些特征在训练模型时可能导致模型学到了不应有的模式或偏差。

2024-06-15 11:28:50 786

原创 德克萨斯大学奥斯汀分校自然语言处理硕士课程汉化版(第八周) - 现代大语言模型

例如,在文本生成任务中,如果有一部分输入是[A][B],随后再出现一个[A],模型通过这两个头的协同工作,很有可能会预测出下一个标记是[B],因为它识别到这种模式并进行了有效的复制和传播。GPT-3虽然在各大NLP任务以及文本生成的能力上惊艳,但是仍然还是会生成一些带有偏见的,不真实的,有害的造成负面社会影响的信息,而且并不按人类喜欢的表达方式去说话。这种延续观察到的模式的能力是语言模型生成高质量文本的基础,尤其是在上下文学习中,模型通过提供的示例来掌握任务,并生成符合这些示例模式的输出。

2024-06-15 11:23:08 1203

原创 德克萨斯大学奥斯汀分校自然语言处理硕士课程汉化版(第七周) - 结构化预测

常见的应用包括词性标注(POS tagging)、命名实体识别(NER)、分块(Chunking)、语义角色标注(Semantic Role Labeling)、句法解析(Syntactic Parsing)等。在介绍大语言模型之前,先把自然语言处理中遗漏的结构化预测补充一下,因为大模型实打实地最先干掉的行业便是自然语言处理,虽然网传各个最容易被大模型替代的行业里从来没有自然语言处理,但现实是有了大模型后,之前的所有自然语言处理技术都显得不那么有价值了。因此,合理的建模方法通常需要考虑元素之间的依赖关系。

2024-06-08 12:46:26 1298

原创 德克萨斯大学奥斯汀分校自然语言处理硕士课程汉化版(第六周) - 预训练模型

在预训练语言模型出现之前,统计语言模型(如N-gram模型)是主流方法。这些模型利用统计方法来预测文本中的下一个词,但它们对长距离依赖和上下文理解能力有限。2013年,Google提出的Word2Vec模型利用神经网络来学习词的分布式表示(词向量),使得相似词在向量空间中彼此接近。这是预训练词嵌入技术的开端。斯坦福大学提出的GloVe(Global Vectors for Word Representation)模型通过结合全局词共现统计信息来生成词向量,进一步提升了词表示的质量。

2024-06-08 12:43:36 738

原创 德克萨斯大学奥斯汀分校自然语言处理硕士课程汉化版(第五周) - Transformer

在语言建模中,注意力(attention)是一个关键机制,用于在给定上下文中访问相关信息以进行预测。注意力机制允许模型根据输入上下文中的重要信息来加权关注不同的部分,并根据其重要性来决定对不同部分的关注程度。例如,对于一个给定的输入句子,语言模型可以使用注意力机制来确定在生成下一个单词时应该关注句子中的哪些部分。当模型预测下一个单词时,它可以根据输入句子中不同位置的单词的重要性来调整注意力权重。这意味着模型可以更有针对性地关注与当前预测相关的上下文信息,而不是简单地平均考虑整个句子。

2024-06-02 16:21:14 1172

原创 德克萨斯大学奥斯汀分校自然语言处理硕士课程汉化版(第四周) - 语言建模

如果我们想要预测句子中的下一个词,我们可以使用前面的一个词作为上下文,并计算每个可能的下一个词的概率。该模型基于这样一种假设,第N个词的出现只与前面N-1个词相关,而与其它任何词都不相关,整句的概率就是各个词出现概率的乘积。这类模型基于统计方法,利用大量文本数据学习语言的统计规律,进而预测未知文本的概率,或者为给定的文本序列生成最可能的后续词汇。准确率作为语言模型的评估指标没有太多意义,语言是开放的序列预测问题,给定前面的文本,下一个词的可能性是非常多的,因此准确率值会非常低。

2024-06-02 16:13:18 1152

原创 德克萨斯大学奥斯汀分校自然语言处理硕士课程汉化版(第三周) - 词嵌入

FastText引入了子词级别的信息,将单词表示为子词的集合,并通过平均或叠加子词的向量来得到单词的表示。而动态词向量模型(如ELMo、BERT、GPT系列)则通过考虑词的上下文信息,提供了更为丰富和灵活的词表示,尤其擅长于捕捉语言的细微差别和复杂语境,但计算成本较高。它们利用单词在文档中的频率和全局语料库的统计信息,计算单词之间的相似性,并将单词表示为稠密向量。通过将单词表示为连续的向量,词嵌入克服了传统的离散表示(如One-Hot)所带来的维度灾难问题,同时也捕捉到了单词之间的语义相似性和关联性。

2024-05-25 11:49:29 274

原创 德克萨斯大学奥斯汀分校自然语言处理硕士课程汉化版(第二周) - 多类别分类和神经网络

分类是一个预测建模问题,它涉及到在给定输入的情况下输出类标签。通常分类任务是从两个或多个标签中预测一个标签,在这中情况下,类是互斥的,这意味着分类任务假定输入只属于一个类。这就是多类别分类问题(Multiclass Classification),多分类任务只有一个类别是1,其他都是0。在多类别分类中,“one vs all” 或 “one vs rest”(一对其余)是一种常用的策略,用于将多个类别的分类问题转化为多个二分类问题。在这种策略中,每个类别都被视为一个正类别,而其他所有类别被视为一个统一的负类

2024-05-20 00:29:16 699

原创 德克萨斯大学奥斯汀分校自然语言处理硕士课程汉化版(第一周) - 自然语言处理介绍和线性分类

自然语言处理的目标是什么能够解决需要深入理解(deep understanding)文本的问题。能够构建与我们交流的系统:对话系统(dialogue system)、机器翻译(machine translation)、摘要(summarization)等。能够构建从文本中抽取信息(extract information)并回答问题(answer question)的系统。标准自然语言处理流程(pipeline)获取原始文本(text)。

2024-05-12 18:02:19 1058

原创 【Docker】Docker 中不能使用 nvidia-smi

docker 中执行 nvidia-smi 后报错:Failed to initialize NVML: Unknown Error

2024-04-23 15:40:45 1579 3

原创 【Linux】Supervisor 基础

Supervisor已在Linux上成功启动,并开始管理指定的进程。你可以使用Supervisor命令行工具(supervisorctl)来管理和监视进程。

2024-04-08 14:53:08 469

原创 【Python】RocketMQ 基础使用

RocketMQ是一个开源的分布式消息传递系统,最初由阿里巴巴集团开发并于2012年开源。它旨在解决高可靠性、高吞吐量、低延迟和可伸缩性等大规模分布式系统下的消息通信需求。RocketMQ的设计目标是提供一种灵活、可靠、高性能的消息传递解决方案,适用于各种场景,包括在线消息通信、日志处理、流式处理、事件驱动架构等。:RocketMQ采用了分布式架构,支持水平扩展和高可用性。它的架构包括多个消息生产者、多个消息消费者和多个消息服务器(Broker)。

2024-04-08 10:58:56 1500

原创 【PDF合并】利用 Python 合并 PDF 文件

然后,使用 append 方法逐个添加要合并的 PDF 文件。在示例中,将要合并的 PDF 文件路径存储在列表 pdf_files 中,可以根据实际情况进行修改。在 PyPDF2 版本 3.0.0 中,PdfFileMerger 类被移除了,取而代之的是 PdfMerger 类。执行上述代码后,将会生成一个名为 merged.pdf 的文件,其中包含了所有合并的 PDF 文件的内容。在添加完所有的 PDF 文件后,需要指定合并后的输出文件路径 output_path。

2024-03-07 11:06:21 1167

原创 【机器学习】实验记录工具

Weights & Biases(简称为 WandB)是一个用于跟踪机器学习实验、可视化实验结果并进行协作的工具。它提供了一个简单易用的界面,让用户可以轻松地记录模型训练过程中的指标、超参数和输出结果,并将这些信息可视化展示。WandB 还支持团队协作,可以让团队成员共享实验记录、交流想法,并进行实验结果的比较和分析。通过 WandB,用户可以更好地管理和理解他们的机器学习项目,加速实验迭代过程,提高模型的性能。以上代码演示了如何使用 Weights & Biases(W&B)库进行实验追踪和记录。

2024-01-24 18:40:45 610

原创 【bugfix】安装 flash-attn 报错

安装 flash-attn 报错安装 flash attention 报错Building wheel for flash-attn (setup.py) ... error error: subprocess-exited-with-error ×Building wheel for flash-attn (pyproject.toml) did not run successfully

2023-11-18 18:24:19 3953 7

原创 【数据结构】树形结构所有路径复原为链表

【代码】【数据结构】树形结构所有路径复原为链表。

2023-11-01 23:01:15 603

原创 【VS Code】使用 VS Code 登陆远程服务器上的 Docker 容器

【代码】【VS Code】使用 VS Code 登陆远程服务器上的 Docker 容器。

2023-11-01 22:57:32 1165

原创 【bugfix】 fatal: unable to access ‘https://github.com/xx/.git/‘: Encountered end of file

在使用Git访问GitHub时,遇到“fatal: unable to access 'https://github.com/xx/xx.git/': Encountered end of file”的报错信息。遇到 fatal: unable to access 'https://github.com/xx/xx.git/': Encountered end of file 报错信息需要执行如下命令,即可修复。该错误通常是由于Git的HTTP或HTTPS代理设置不正确导致的。

2023-11-01 22:52:39 1802

原创 【讯飞星火认知大模型】大模型之星火手机助理

讯飞星火认知大模型是科大讯飞自研的基于深度学习的自然语言处理模型,它可以理解和生成中文,执行多种任务,如问答、翻译、写作、编程等。它的目标是实现“智能涌现”,覆盖多维度多任务多行业的客观评测,对标ChatGPT和GPT-4。它还支持语音输入和输出,可以与用户进行自然对话。官网。

2023-08-10 23:45:00 2373

原创 【递归算法实践】验证二叉搜索树

验证二叉搜索树代码实现 Leetcode 98验证二叉搜索树代码实现 Leetcode 98验证二叉搜索树代码实现 Leetcode 98验证二叉搜索树代码实现 Leetcode 98https://leetcode.cn/problems/validate-binary-search-tree/https://leetcode.com/problems/validate-binary-search-tree/

2023-08-09 23:45:00 258

原创 【ChatGLM】大模型之 ChatGLM 微调

大模型之 ChatGLM 微调 对模型全量参数进行训练。前缀微调,在模型每一层都增加前缀,只训练这部分的参数,训练量明显小于全量微调。基于矩阵分解的微调,假设原权重喂 W_0,我们新增一个和 W_0 一摸一样形状的矩阵 W_delta,并且对 W_delta 分解为 A 和 B,在训练过程中只训练 A 和 B 的参数,最后的权重 W = W_0 + W_delta。

2023-08-08 23:45:00 1069

原创 【VisualGLM】大模型之 VisualGLM 部署

大模型之 VisualGLM 部署大模型之 VisualGLM 部署大模型之 VisualGLM 部署VisualGLM 主要做的是通过图像生成文字,而 Stable Diffusion 是通过文字生成图像。一种方法是将图像当作一种特殊的语言进行预训练,还有一种是将图像特征对齐到预训练语言模型,可充分利用语言模型,并且无缝衔接多轮对话能力,但提取图像语义特征会损失底层信息。

2023-08-08 23:45:00 1464

原创 【ChatGLM】大模型之 ChatGLM 部署

大模型之 ChatGLM 部署HuggingFace 下载 本地加载大模型之 ChatGLM 部署HuggingFace 下载 本地加载大模型之 ChatGLM 部署HuggingFace 下载 本地加载大模型之 ChatGLM 部署HuggingFace 下载 本地加载大模型之 ChatGLM 部署HuggingFace 下载 本地加载大模型之 ChatGLM 部署HuggingFace 下载 本地加载

2023-08-07 23:45:00 909

原创 【语音合成】微软 edge-tts

语音合成微软 edge-tts 在Python代码中使用Microsoft Edge的在线文本到语音服务语音合成微软 edge-tts 在Python代码中使用Microsoft Edge的在线文本到语音服务语音合成微软 edge-tts 在Python代码中使用Microsoft Edge的在线文本到语音服务语音合成微软 edge-tts 在Python代码中使用Microsoft Edge的在线文本到语音服务

2023-08-03 23:45:00 3569

原创 【Android】使用 CameraX 实现基础图像分析功能

Android使用 CameraX 实现基础图像分析功能增加人脸识别、手势识别、姿态识别等常用只能视觉功能Android使用 CameraX 实现基础图像分析功能增加人脸识别、手势识别、姿态识别等常用只能视觉功能Android使用 CameraX 实现基础图像分析功能增加人脸识别、手势识别、姿态识别等常用只能视觉功能Android使用 CameraX 实现基础图像分析功能增加人脸识别、手势识别、姿态识别等常用只能视觉功能Android使用 CameraX 实现基础图像分析功能增加人脸识别、

2023-08-02 23:45:00 933

原创 【Android】控件与布局入门 - 简易计算器

Android控件与布局入门 - 简易计算器Android控件与布局入门 - 简易计算器Android控件与布局入门 - 简易计算器Android控件与布局入门 - 简易计算器Android控件与布局入门 - 简易计算器Android控件与布局入门 - 简易计算器Android控件与布局入门 - 简易计算器Android控件与布局入门 - 简易计算器Android控件与布局入门 - 简易计算器Android控件与布局入门 - 简易计算器Android控件与布局入门 - 简易计算器And

2023-08-02 23:45:00 959

原创 【娱乐圈明星知识图谱2】信息抽取

Prompt是一种用于指导大型语言模型生成自然语言文本的文本片段。在使用大型语言模型时,我们需要提供一个Prompt,以指导模型产生符合我们期望的文本结果。信息抽取任务是指从文本中识别和提取特定类型的信息。这些信息可以是实体(如人名、地点、组织机构等)、关系(如人物之间的关联、物品属性等)或事件(如时间、动作、状态等)等。信息抽取任务通常包括以下步骤:ChatGPT是由OpenAI开发的人工智能聊天机器人,它使用了基于GPT-3.5和GPT-4的大型语言模型,能够理解和学习人类的语言,进行自然的对话和互动。

2023-08-02 22:45:00 253

原创 【Android】使用 CameraX 实现基础录像功能

Android 使用 CameraX 实现基础录像功能Android 使用 CameraX 实现基础录像功能Android 使用 CameraX 实现基础录像功能Android 使用 CameraX 实现基础录像功能Android 使用 CameraX 实现基础录像功能Android 使用 CameraX 实现基础录像功能Android 使用 CameraX 实现基础录像功能Android 使用 CameraX 实现基础录像功能Android 使用 CameraX 实现基础录像功能

2023-08-02 11:13:05 1486

原创 【Android】使用 CameraX 实现基础拍照功能

Android 使用 CameraX 实现基础拍照功能Android 使用 CameraX 实现基础拍照功能Android 使用 CameraX 实现基础拍照功能Android 使用 CameraX 实现基础拍照功能Android 使用 CameraX 实现基础拍照功能Android 使用 CameraX 实现基础拍照功能Android 使用 CameraX 实现基础拍照功能Android 使用 CameraX 实现基础拍照功能Android 使用 CameraX 实现基础拍照功能

2023-08-01 15:44:14 1817

原创 【OpenCV】no opencv_java*** in java.library.path 和 java.lang.UnsatisfiedLinkError: org.opencv.videoio.

no opencv_java451 in java.library.path # 不一定是451,有可能是别的,与opencv的版本对应。解压,然后从 build\java\x86 目录中把 opencv_java451.dll 复制到自己的 JDK /bin 目录下即可。去官网下载对应的 .dll文件,对于上面的情况则是下载。在相应的类中增加如下代码。

2023-07-17 23:45:00 3542

原创 【名词解释】Java Bean

这个术语的来源可以追溯到Sun Microsystems公司在1996年发布的Java Beans规范。"Java Bean"这个术语是由Java编程语言中的"Bean"所衍生而来。"Bean"一词可以被解释为一个可重用的软件组件,它可以被用于构建应用程序。因此,Java Bean被称为"Bean",因为它具有类似于Java中的豆子(Bean)的属性,即可重用、易于管理和组合的特性。2. 提供访问器方法(getter和setter)来控制其属性。3. 实现了序列化接口,可以通过网络进行传输和存储。

2023-07-11 23:45:00 134

原创 【Python】Sphinx 文档生成器

Sphinx是一个Python文档生成器,它基于reStructuredText标记语言,可自动根据项目生成HTML,PDF等格式的文档。Sphinx可以令人轻松的撰写出清晰且优美的文档,除了天然支持Python项目以外,Sphinx对C/C++项目也有很好的支持,并在不断增加对其它开发语言的支持。

2023-07-03 16:28:52 1293

原创 【对话机器人】开源机器人项目介绍

闲聊机器人是一种基于人工智能和自然语言处理技术的智能对话系统,旨在模拟人类的语言交流能力,与用户进行自然、连贯的对话。闲聊机器人能够理解用户的问题或指令,通过分析和处理文本,生成符合语法和语义规则的回答,并以自然、流畅的方式进行回复。青云客智能聊天机器人API思知(ownThink)项目开放了对话机器人、知识图谱、语义理解、自然语言处理工具。青云客智能聊天机器人API。

2023-07-02 20:50:32 707

完整中文教程170页-德克萨斯大学奥斯汀分校自然语言处理硕士课程-21.5MB

完整中文教程170页-德克萨斯大学奥斯汀分校自然语言处理硕士课程-21.5MB

2024-06-15

Android控件与布局入门 - 简易计算器

Android控件与布局入门 - 简易计算器

2023-08-02

Android使用 CameraX 实现基础录像功能

Android使用 CameraX 实现基础录像功能

2023-08-02

Android使用 CameraX 实现基础拍照功能

已经编译好的 APK 文件,在华为 nova9 上可直接运行

2023-08-01

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除