自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(26)
  • 收藏
  • 关注

原创 博客质量分计算——发布 version 5.0

质量分 V5 版本进行了较大的更新,由 2.3 节的对比实验可知,相比 V4 版本,随着文章内容的变化,V5 版本的得分变化更加均匀与合理。同时,由 2.4 节的分布对比可知,V5 版本的得分分布更加均匀,分布覆盖范围也更广。这些变化进一步带来的好处就是质量分变化的可解释性更强。除了上述主动的优化,在修改代码的过程中,还发现了若干隐藏的 Bug,进一步确保了质量分计算的正确性。

2023-06-29 18:42:22 25305 73

原创 CSDN 个性化推荐的数据治理

经过不断地迭代,推荐流数据在质量、正确性、实效性等方面得到了一定提升,但数据治理从来都不是一劳永逸的工作,随着时间的推移需要不断迭代与优化。此外,后续会进一步优化用户画像的效果,做到推荐用户真正感兴趣的高质量数据。

2023-06-25 16:29:11 2306 5

原创 NLP 中语言表示 (向量化) 的基本原理和历史演变综述

在自然语言处理(Natural Language Processing,NLP)领域中,语言表示是一项核心任务,其旨在将人类语言转化为计算机可理解和处理的形式。语言表示的基本原理和历史演变是理解和应用 NLP 技术的基石。随着人工智能和深度学习的迅猛发展,语言表示也经历了一系列的演进和改进。从早期符号化的离散表示方法到如今基于深度学习的分散式表示 (Distributed Representations) 方法,语言表示都在 NLP 任务中扮演着至关重要的角色。

2023-05-15 09:42:36 6743 17

原创 ChatGPT 中的人类反馈强化学习 (RLHF) 实战

在当今数字化的时代,ChatGPT 的火热程度不断升级。ChatGPT 可以处理复杂的语言任务,从而解放人力资源,提高工作效率,减少成本。ChatGPT 的先进技术和广泛应用,使得它成为了当今最炙手可热的人工智能技术之一。无论是企业、学术机构,还是科技爱好者,都对 ChatGPT 的应用前景充满期待。在这样的背景之下,CSDN AI 团队也想对 ChatGPT 进行简单的复现。根据ChatGPT官方博客可知,ChatGPT的训练方法与的训练方法基本一致 (如图1所示),只是使用的数据集不一样。

2023-04-21 17:55:09 4137 2

原创 从 ELMo 到 ChatGPT:历数 NLP 近 5 年必看大模型

从ELMo到ChatGPT:历数NLP近5年必看大模型

2023-02-17 18:52:56 9583 2

原创 关于 ChatGPT 必看的 10 篇论文

2022年11月,OpenAI推出人工智能聊天原型ChatGPT,再次赚足眼球,为AI界引发了类似AIGC让艺术家失业的大讨论。ChatGPT 是一种专注于对话生成的语言模型。它能够根据用户的文本输入,产生相应的智能回答。这个回答可以是简短的词语,也可以是长篇大论。其中 GPT 是 Generative Pre-trained Transformer(生成型预训练变换模型)的缩写。下面列出了学习 ChatGPT 必看的 10 篇论文。(ChatGPT 的简介可参考。

2023-02-10 16:33:11 72446 21

原创 ChatGPT 简介

ChatGPT 现在还处于测试阶段,可以看出在未来它可以极大地提升人类的生产力。但由于这是一个新鲜事物,还没有完善的法规和政策对它进行约束和规范,所以可能会存在一些数据安全等问题。要想实现ChatGPT以及类似产品在国内的落地与商业化,还有很长的路要走。

2023-02-09 14:57:22 61230 15

原创 uni-app 管理项目研发成员

uni-app 管理项目研发成员

2023-01-28 15:53:59 3787 6

转载 uni-app 上传代码时是否自动压缩

当我们在开发微信小程序时,我们应该使用 manifest.json 文件中的 mp-weixin.setting.minified 属性来对代码自动压缩开关进行配置。

2023-01-28 15:16:32 1225 1

转载 uni-app 上传代码样式自动补全

当我们在开发微信小程序时,我们应该使用 manifest.json 文件中的 mp-weixin.setting.postcss 属性来对样式自动补全开关进行配置。

2023-01-28 15:14:13 847

原创 云原生的分层

云原生的分层。

2023-01-28 14:44:04 454

原创 2022 个人工作年度总结

2022年做了很多有意思的工作,主要分类3类:1) 有的上线了,效果达到预期,并且吸引了很多用户;2) 有的上线了,但是效果却没达到预期;3) 有的上线了,但是却没有实际落地。2023年需要继续努力,针对上述的第 2) 点进行优化,针对第 3) 点分析原因为什么没有落地,改进后续的工作。此外,希望使用 AI 技术,做出更多有意思的功能和模块,提升 CSDN 内容的质量和用户体验。最后,祝大家新年快乐,万事如意!

2023-01-18 16:08:08 856 2

原创 CSDN 客服体验经历

在初步学习了客服系统的使用方法之后,怀着满心期待的心情,开始正式接入客服的工作,可能因为中午是低峰期,刚开始一直没有客户接入,心里有点着急了。过了十几分钟之后,终于迎来了第一个客户,有点小激动过,随即进入状态,在客服老师的指导下,陆续给用户解决了一个又一个的问题。期间遇到一个用户骚扰,不断问我的性别,还进行了一些语言攻击,当时感到有点不知所措,幸好在客服老师的指导下,进行了妥善的处理。客服老师、本人以及一起体验的小伙伴。

2022-08-19 10:37:35 733 4

翻译 【翻译】读博士一年后对机器学习工程的思考

实现端到端的机器学习(ML)生命周期的自动化,即使是对于一个特定的预测任务,也是一件既不容易也不明确的事情。人们一直在谈论机器学习工程(MLE)是软件工程的一个子集,或者应该被这样对待。但在过去15个月的博士研究生阶段,我一直在通过数据工程的视角来思考MLE。......

2022-07-19 15:39:27 2297 1

原创 CSDN-NLP:基于技能树和弱监督学习的博文难度等级分类 (一)

目录1. 背景2. 方法2.1 规则:快速实现2.2 匹配:结构化知识体系2.3 分类:弱监督学习2.4 融合:各尽其能3. 总结与展望3.1 总结3.2 展望4. 参考团队博客: CSDN AI小组1. 背景CSDN 每天都会产生数以万计的博客数据,但是这些数据没有难度等级的体系结构,这种体系结构在 个性化推荐、用户画像、榜单 等业务上都有很大的作用和价值。本文主要阐述如何从头开始构建一个难度等级分类框架,用于实现博客在 初级、中级、高级 三个类别上的分类。在实现方法上,本文根据各个时间阶段

2022-05-26 12:05:02 1018 29

原创 C语言标准的发展

目录K&R CC89C90C99C11C18C2x参考团队博客: CSDN AI小组c语言标准的发展主要分为以下几个阶段:K&R C1978年,丹尼斯·里奇(Dennis Ritchie)和布莱恩·科尔尼干(Brian Kernighan)出版了一本书,名叫《The C Programming Language》。这本书被C语言开发者们称为“K&R”,很多年来被当作C语言的非正式的标准说明。人们称这个版本的C语言为“K&R C”。C89为统一C语言版本,198

2022-02-10 16:13:25 22932 2

翻译 【翻译】Git使用 —— 学习 Git 的工作原理

目录1. 前言2. 基础3. Git 的工作原理3.1 Git 的使用3.2 命名原文链接请点这里团队博客: CSDN AI小组1. 前言Git 是一个常用的去中心化源代码仓库。它由 Linux 之父 Linus Torvalds 创建,用于管理 Linux 内核源代码。GitHub 的整个服务都基于Git。因此,如果您使用Git管理在 Linux 环境中的工程,或者将 IBM 的 DevOps 服务与 Git 结合使用,会帮助你更好地理解 Git。在我刚开始使用 Git 的时候,我对并发版本

2022-01-27 10:30:33 1036

原创 python“趟坑”(一) —— linux系统安装psycopg2

目录系列文章1. 背景2. 安装方法3. 趟坑参考系列文章CSDN博客摘要(一) —— 一个简单的实现团队博客: CSDN AI小组1. 背景psycopg2 库是 python 用来操作 PostgreSQL 数据库的第三方库。在 Linux 系统下,直接使用 pip 安装 psycopg2 会安装不成功。因为 pip 只是安装了 PostgreSQL 的 python 接口,其底层还需要调用 PostgreSQL 的 C 语言库,而这个 C语言 库在 Linux 系统上还需要另外用系

2021-09-13 00:32:07 8026 3

原创 CSDN博文摘要(一) —— 一个简单的初版实现

目录系列文章1. 背景2. 博文摘要2.1 博文结构化2.2 规则部分2.3 模型部分2.4 得分设定3. 下一步计划P.S.系列文章CSDN博客摘要(一) —— 一个简单的实现团队博客: CSDN AI小组1. 背景2. 博文摘要2.1 博文结构化博文中包含了太多的元素,直接作为文本进行摘要会严重影响摘要的质量。故首先需要对博文进行结构化,结构化之后会将正文中的内容有效区分,例如:head(标题)、code(代码)、table(表格)、text(段落)、img(图片)、link(链接

2021-08-24 15:15:25 725 2

原创 CSDN问答标签技能树(五) —— 云原生技能树

目录系列文章云原生技能树概要基本信息涵盖的数据资源树之间的关系云原生技能树系列文章CSDN问答标签技能树(一) —— 基本框架的构建CSDN问答标签技能树(二) —— 效果优化云原生技能树概要基本信息所有结点数: 3712所有结点中有数据结点数 / 所有结点数: 593 / 3712 = 0.16叶子结点数: 2806叶子结点中有数据结点数 / 叶子结点数: 551 / 2806 = 0.2不同等级难度结点数占比: 初阶: 75.51%, 中阶:

2021-07-19 23:47:52 549 1

原创 CSDN问答标签技能树(四) —— Java技能树

目录系列文章Java技能树概要系列文章CSDN问答标签技能树(一) —— 基本框架的构建CSDN问答标签技能树(二) —— 效果优化Java技能树概要

2021-07-19 23:43:41 543 1

原创 CSDN问答标签技能树(三) —— Python技能树

目录系列文章Python技能树概要Python技能树系列文章CSDN问答标签技能树(一) —— 基本框架的构建CSDN问答标签技能树(二) —— 效果优化Python技能树概要所有结点数: 3618所有结点中有数据结点数 / 所有结点数: 822 / 3618 = 0.23叶子结点数: 2893叶子结点中有数据结点数 / 叶子结点数: 741 / 2893 = 0.26不同等级难度结点数占比: 初阶: 37.39%, 中阶: 26.88%, 高阶:

2021-07-19 18:06:18 563 2

原创 CSDN问答标签技能树(二) —— 效果优化

目录1. 问题背景2. 技能树优化2.1 技能树结构优化2.1.1 知识覆盖率2.1.2 等级体系2.2 匹配算法效果优化2.2.1 匹配算法的优化2.2.2 预处理优化2.2.3 增加其他类结点2.3 匹配效果3. 总结与下一步计划P.S.1. 问题背景本篇文章承接上一篇文章《编程语言技能树的构建和应用》。简而言之,是对CSDN问答模块中的各个领域标签,构建一个完整的知识体系,并将问答模块中的内容、用户等,与知识体系进行关联,最终形成一个包含异构结点的只是图谱,更好地为下游NLP任务提供资源基础。本

2021-07-04 18:59:07 1234 2

原创 CSDN问答模块标题推荐任务(二) —— 效果优化

目录1. 问题背景2. 效果优化方法论2.1 无效标题的检测2.1.1 关键词匹配策略2.1.1 去停用词策略2.2 OCR模块:保证信息的完整性2.3 规则模块:提升Precision(准确率)2.2.1 报错信息提取模块2.2.2 练习题识别模块2.2.3 询问知识点模块2.2.4 添加标题头2.4 Text_Rank模块:提升Recall(召回率)3. 总结与下一步计划P.S.1. 问题背景本篇文章承接上一篇文章《CSDN问答模块中提问标题的优化》。简而言之,是对CSDN问答模块用户提问的标题进

2021-06-20 23:46:07 539 6

原创 CSDN问答标签技能树(一) —— 基本框架的构建

目录1 问题定义1.1 背景2 解决方案2.1 知识搜集2.2 技能树的构建2.3 技能树的合并2.4 问题与技能树的匹配3 总结与下一步计划总结下一步计划1 问题定义1.1 背景当前CSDN问答模块中的提问只进行了简单的归类,例如:Python、Java、C语言等大类,而未将提问映射到大类中的具体知识点,例如在下图的例子中,该问题属于Python语言中的数据可视化问题。将问题进行细粒度的归类和划分,可以让提问者更清楚的了解自己所提的问题在知识体系中的位置,也便于系统更精准地推荐相关的资料给提问者

2021-05-30 21:52:35 743 1

原创 CSDN问答模块标题推荐任务(一) —— 基本框架的搭建

目录1 问题定义1.1 背景1.2 输入1.3 输出2 解决方案2.1 数据预处理2.2 模型2.2.1 粗排序2.2.2 精排序2.3 实验结果与错误数据分析3 下一步计划P.S.1 问题定义1.1 背景在CSDN的问答模块中,很多初学者的提问标题缺乏有效信息,例如:救救孩子吧!大佬救我!!!帮我完成一下这个题目求大神!!!在上图例子中,更好的标题应该是 “如何在移动端页面中加入滚动条?”在这类提问标题中,包含的有用信息量极少,无法从标题中快速理解问题的意思,在一定程度上会影响问题回

2021-05-23 22:13:41 663 9

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除