nlp处理技术-文章分类java实现方案

llm大模型算法工程师weng

已于 2023-11-18 23:22:15 修改

阅读量1.6k

点赞数

文章标签： nlp 自然语言处理 fasttext4j 文章分类处理

于 2019-03-07 19:13:46 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/q1457797371/article/details/88317316

版权

项目背景：为了解决采集的文章，智能进行文章分类

因为本人是java代码，看java jar比较爽。

于是选择了fasttext4j ( facebook开发源代码，底层是c++，做的jar)

业务实现流程

1：采集一个目标文章网站，文章内容+栏目id

2：整理数据样本。把mysql数据转移到File。作为fasttext4j的数据样本。

样本数据如图，本人花了3小时下载的模板。中文分词参数，一行一篇文章。然后一行最后面是__label__xx 文章分类编号

3：用fasttext进行训练

注：请使用ModelName.sup 的训练模式，而不是用词向量，后面这种方式生成模型。

4：第一次生成模型很麻烦，900片文章，预计在2分钟左右。以后直接调用模型即可。

5：predict预测

现在遇到的问题

数据样本不均匀的时候，然后==》一篇文章参数进来，智能匹配到5的概率很大

当前的解决方案，为了不同类目的样本一致，随机取13篇文章，再跑模型训练，你会怎么去处理呢？

本人微信：liuxia8_com 一起学习NLP处理技术。

llm大模型算法工程师weng

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
打赏
1
评论
nlp处理技术-文章分类java实现方案

项目背景：为了解决采集的文章，智能进行文章分类因为本人是java代码，看java jar比较爽。于是选择了fasttext4j ( facebook开发源代码，底层是c++，做的jar)业务实现流程1：采集一个目标文章网站，文章内容+栏目id2：整理数据样本。把mysql数据转移到File。作为fasttext4j的数据样本。样本数据如图，本人花了3小时下载的模...
复制链接

扫一扫

llm大模型算法工程师weng CSDN认证博客专家 CSDN认证企业博客

码龄14年

浙江连信科技有限公司

19: 原创

61万+: 周排名

11万+: 总排名

1万+: 访问

: 等级

372: 积分

42: 粉丝

58: 获赞

12: 评论

43: 收藏

私信

关注

热门文章

分类专栏

架构 1篇
seo优化

最新评论

docker gpu相关常见问题
CSDN-Ada助手: 恭喜作者撰写了这篇有关docker gpu相关常见问题的博客，内容十分有价值！不过我想建议作者在下一篇博客中可以尝试结合实际案例，或者深入分析一些高级技术，这样可以让读者收获更多实践经验和专业知识。希望作者能够继续保持创作，期待更多精彩内容！
langchain-Chatchat 使用流程遇到的坑
CSDN-Ada助手: 恭喜作者第18篇博客的发布！阅读了你的文章，发现你对langchain-Chatchat使用流程中遇到的坑有着深入的了解，很感谢你分享了这些宝贵的经验。希望你在未来的创作中能够继续保持对细节的关注，也可以尝试结合自己的实际经验，给出更多实用的建议，为读者提供更多帮助。加油！期待你的下一篇作品。
Git学习之LFS 如何下载git的大文件
CSDN-Ada助手: 恭喜您发布了第17篇博客！学习了LFS如何下载git的大文件，这是一个很实用的技能。希望您能继续分享更多关于Git学习的内容，也可以考虑分享一些实际应用案例或者进阶技巧，这样可以让读者更加深入地理解Git的使用。期待您的下一篇作品！
spring boot项目启动原理解密
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)增加条理清晰的目录；(2)使用更多的站内链接；(3)提升标题与正文的相关性。
java jvm溢出如何定位问题并解决问题
CSDN-Ada助手: 恭喜您写了第6篇博客！标题“java jvm溢出如何定位问题并解决问题”非常吸引人。您对于这个问题的研究和解决方法肯定会对很多开发者有所帮助。我很期待能够阅读您的博客并了解更多关于如何定位和解决jvm溢出问题的知识。在下一步的创作中，或许您可以考虑分享一些实际案例，以及更深入的分析和解决技巧。谢谢您的分享！

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

llm大模型算法工程师weng 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。