博客质量分计算(一)

新的启程


上周我正式加入了 CSDN 的 NLP 团队。感谢组织给了这样一个机会,可以和志同道合的同事一起做喜欢的事情。在数理统计专业毕业21年后 ,开始进入 AI 方向,大概也可以算是人生的一种螺旋上升吧。


博客标题质量评估

我的第一个开发任务,是内容质量分。这里的质量,并不是严格遵循主观上的内容质量,而仅仅是一个排序依据,可以说是推荐系统的一部分,我们旨在于基于统计算法而非人工干涉,尽可能在统计上将更优质的内容推荐给用户。
这个结果通常并不能保证对每个读者都是最好的,只能尽可能的向这个目标去接近,关于这一点,算是推荐系统的一个永远的遗憾吧。
对博客标题的评估,是其中一个特殊的子项。标题有其特殊性,它不需要是完整的句子,而应该是尽可能清晰的说明文章内容的要点。而对于标题推荐,主要目标是两个,一个是标题应该符合专栏题材或搜索关键字,这方面要重点对抗通过标题堆砌关键字来提高命中率的行为;一个是标题要能符合文章本身的内容,要对抗“标题党”行为。
我手工采集了一万多篇博客的标题,人工阅读了一遍,感觉 CSDN 博客的质量还是很高的,标题绝大部分都是非常有诚意的。
标题党最喜欢的是通过一些“抓眼球”的文字和标点,吸引读者点击,所以我第一个想法是找出共性最大的标题子集,或许就是一个现成的标题党集合。但是阅读了这一万五千多标题后,我感觉这个方向走不通,因为技术博客是一个特殊的垂直领域,好的标题也会因为在讨论类似的内容而非常相似。相反,对标题的词汇做聚合,可能得到的最大的子集是技术术语集合。
初步来看,对于技术博客,标题质量应尽量靠拢以下目标:

  • 符合自然语言语法的主谓/动宾结构
    • 部分词汇在术语词典中,重点是主语和宾语
    • 如果一个标题只有术语词典中的词,做一定的降权
    • 标题的情感分析结果应趋向于中立,情绪激烈的予以降权
    • 对包含负分数词汇的标题降权

要更完整的评估一篇文章的质量,除了标题,还需要对内容做分析。下一篇文章我们讨论博客文章的内容质量: https://blog.csdn.net/ccat/article/details/123911429

  • 18
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 25
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 25
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

ccat

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值