NLP In Action
文章平均质量分 94
幻灰龙
计算数学博士,程序员,热爱技术和学习。
展开
-
CSDN-AI小组2023-半年-研发总结
通过这些分析,我们改进了博客质量分的计算,近期推出了博客质量分V5,V5版本在解决博客质量可计算方面的能力基础上,进一步增加了可解释性,让博主们能在机器自动辅助建议的基础上持续获得写作质量的提升,这也是平台生态长期良性发展的基石。实际做的工作远不止这些,有重大技术突破的时代,是一个最好的时代,希望大家都能走的更远,创造更多好的技术和产品。机器做的更多,人的精力会背更多解放出来。解决问题需要「多人」讨论,包括human1, human2, 中间可以夹杂ai1, ai2,AI的加持,人与人的讨论更能聊的下去。原创 2023-06-28 17:46:34 · 4110 阅读 · 18 评论 -
AI小组2022总结
时间如流水,2022年即将过去,也到了一年一度年终终结的时候。CSDN-AI小组在2022年在AI+之路上又有哪些积累呢?原创 2022-12-29 17:57:33 · 1699 阅读 · 6 评论 -
NLP 实战(12): AI小组2022半年小结
AI小组半年研发分析,思考,回顾。标签体系是数据分类的基础之一。我们持续在统一标签上进行改进需求:Web发展到今天,一个特征是内容爆炸,已经出现”worse is better“的逆淘汰现象,也就是劣币驱逐良币。对于用户来说就是内容很多,但是找到的内容质量整体在下降。解决:我们从衡量博文质量的角度出发,设计并实现了一套有效的博文质量评分机制。基本原理是很简洁的,两个部分的公式就可以概括:难的地方在于实现细节和工程细节,包含:这是一个良币趋势劣币的过程:很多人忙于制造各种低质量的数据,我们在重视内容数据的质量原创 2022-06-14 22:17:13 · 2085 阅读 · 37 评论 -
NLP 实战(11): CSDN Daily,兼谈技术写作的问题
CSDN 极客日报社区 实验并推荐了一组以内容结构和质量为主的榜单,包含了这些不同的频道:频道相关链接铁粉增长CSDN铁粉介绍以及说明每天值得看CSDN每天值得看–2022-05-20每天分享能手CSDN 活动: 奖励每天的分享小能手每天最佳新人CSDN 活动: 奖励每天最佳新人一周精选如何在 CSDN 获得直接奖励 - 你也可以!月度精选CSDN 创作者之夜一周学习榜月答题挑战2022/05/02CSDN 社区功能更新:C原创 2022-05-20 23:27:32 · 5263 阅读 · 9 评论 -
NLP 实战(10): CSDN 领域榜标签分组更新
CSDN 全站数据在2021年完成了标签体系的统一。在这个基础上:用户可以在UC中心选择感兴趣的标签博客/问答使用统一标签标记数据并筛选博客首页有基于统一标签的导航(blog.csdn.net/nav)动态(blink)和社区(community)数据也在逐步完成数据的机器标签化信息流(领域榜/推荐流)使用统一标签推荐数据下载内容也逐渐融入统一标签2022开年,我们持续在改进数据质量,领域榜的数据质量改进是其中之一。针对用户反馈的标题党和软文问题,现在领域榜也和综合热榜一样对标题党和软原创 2022-03-01 11:58:23 · 1067 阅读 · 4 评论 -
NLP 实战 (9) | CSDN topN指数月排行榜竞赛动画
开源一个 topn 词竞赛动画项目 topn_race:GitCode 仓库:https://gitcode.net/csdn/topn_race核心功能:输入:按月统计的topN词频数据输出:topN词频竞赛动画(可带音效)源码结构本项目基于开源项目:https://github.com/dexplo/bar_chart_race 定制,src/bar_chart_race 从 bar_chart_race 项目的源代码修改以适配需求。依赖库:progress==1.5matpl原创 2021-12-30 15:42:25 · 11134 阅读 · 28 评论 -
NLP 实战 (8) | CSDN 在改进,2021我们做了什么?
CSDN 在改进,2021 CSDN AI 小组做了什么?AI 组通过提供智能数据服务,与多个团队合作,支撑产品功能改进和创新产品设计。我们结合NABCD(Need、Approach、Benefit、Competitors、Delivery)的方式来做一个复审,每个环节未必包含全部环节分析,主要从“需求”,“改进”,2个方面做一个客观描述。统一标签需求: 对技术数据的正确的统一分类,能打通底层数据之间的关联关系,解决数据的精确匹配等需求。历史上不同的板块有不同的标签体系,体系分类也不尽相同。统一标签并且原创 2021-12-02 17:08:01 · 3669 阅读 · 7 评论 -
NLP 实战 (7) | 热榜算法更新
热榜问题分析CSDN 的榜单有很多个,包含这些:周排名历史贡献排名总排名新晋博主企业博客排名领域排名热榜排名其中热榜总是存在一些问题,典型的现象有:存在博文霸榜时间过长的问题。收藏/点赞/评论刷量数据对榜单的影响过大的问题。博文过于追求博文长度的问题。标题党的风气问题太多同质化的入门文章。领域过于集中在少数几个语言上的问题。…我们再分析下这些问题反映的问题是什么:博文应该能上榜,但是应该有半衰期。博文的评论区应该有正常的交流和讨论,为了上榜而做的水评实际上降低原创 2021-10-19 20:11:45 · 14008 阅读 · 89 评论 -
NLP 实战 (6) | 团队开发,一些本质的问题
目标和实践经过连续的高质量迭代和团队协作,我们逐渐清晰了方向和目标:把海量内容用人工智能的手段内容分类, 质量分级。 促使各种内容 覆盖 IT 行业的各个领域。 充分挖掘 IT 领域知识点之间,内容,用户,社区的关系。利用这些关系清除低质量内容,鼓励高质量内容的生成,并把高质量内容在适当的时间呈现给用户,帮助用户学习,成长,成功。在这个方向上,我们持续迭代,提供智能数据和服务,支持了两款创新应用,希望能解决技术人在一条线和一个面上学习领域知识的痛点问题:每日一练:dailycode.csdn.ne原创 2021-09-17 13:54:29 · 638 阅读 · 0 评论 -
NLP 实战 (5) | 标签、技能树和知识图谱
我们都知道数据有两类:“结构化数据”和“非结构化数据”。如果有“结构化数据”,我们只要对结构化数据做增删查改就可以,进一步需要解决伸缩性的问题。但是更多的数据是非结构化数据,所谓非结构化数据并不是说数据内部毫无结构,而是数据的结构并没有被使用者定义、抽取、索引和查询。从这个角度来说,如果数据是结构化的,数据库能解决的,就不必要再使用其他更复杂的做法。但是如果数据没有被很好的结构化,数据的有价值的信息并不能很好的地被索引和查询,用来支撑产品的进一步改进、创新进而创造商业价值。那么,我们就应该对数据的结构进行原创 2021-08-08 01:09:46 · 2778 阅读 · 0 评论 -
NLP 实战 (4) | 我发现的飞桨(paddlepaddle)大坑
文章目录分离阶段:以交付为目标尽早集成:暴露内存和性能问题重构代码:做好模块化耗时分析:找到性能瓶颈深入分析:二分排查解决问题:通常就几行代码小结在上一篇 我们介绍了数据集和模型的上传/下载管理。解决数据集和模型的管理问题,在我们的新成员加入时就体现了优势,新成员克隆仓库代码、根据文档执行命令下载相关数据集、下载相关模型、启动服务、执行测试,以最快的时间跑通全流程,进而获取新任务,达成 first commit 的目标。本节我们分析一个实战问题诊断的过程。分离阶段:以交付为目标我们反复强调,从数据集入原创 2021-06-23 00:39:06 · 1365 阅读 · 3 评论 -
NLP 实战 (3) | 整体设计之数据集/模型管理
文章目录项目的可拆性数据集/模型管理需求数据集/模型同步的方式数据集/模型管理命令数据集/模型管理的权限和配置管理数据集/模型的版本化在上一篇 里,我们分析了代码的基础构架。我们从服务拆分和代理、命令行管道、模块依赖局部化、以及本地数据路径管理几个方面分别切入。本节继续分析一些设计上的思路,以及讨论数据管理部分。项目的可拆性事实上,我们解决的是软件开发中“组合”与“解耦”的问题。一个项目在面对需求增量的压力、数据增量的压力、功能增量压力的情况下,还能保持一致的设计,一致的可测试性,对项目保持健康度非常原创 2021-06-19 01:07:51 · 721 阅读 · 0 评论 -
NLP 实战 (2) | 整体设计之代码篇
在 上一篇 里,我们对基于 NLP 技术构建的服务做了整体性的构建。我们看到 NLP 的实战决不仅仅是单纯的算法或模型问题,立足于算法/模型,但整体性的工程构建工作也需要持续更新,同时模型和算法相关的实际开发也不仅仅是某个单一模型或者某个超大预训练模型就能解决问题,更多地,我们总是需要系统的解决方案。微服务上一篇我们讨论了项目的统一命令行设计和项目目录结构的整体设计。实际上这是两个自底向上的基建工作。本次我们直接自顶向下看下最后的构架是怎样的。模型和算法最终都要转成一个个服务,设计上会是一个微服务到s原创 2021-06-12 02:38:08 · 506 阅读 · 3 评论 -
NLP 实战 (1) | AI 编程也遵循软件工程的基本原理
记录结构化NLP服务之路,本文长期更新管道(pipeline)从不同数据源(source)获取数据清洗数据构建数据集(dataset)数据集管理拆分训练集/验证集/测试集选择机器学习框架/算法(framework/algorithm)模型训练(train)/预训练/微调训练构建分类器(classifier)基于分类器提供 Rest 服务(server)输出结构化数据结构化数据提供给目标(dest)应用服务服务于应用层(application)Python 环境使原创 2021-05-11 21:30:08 · 5649 阅读 · 8 评论