科室推荐实践（随机森林模型）

飞锡2024

已于 2022-08-20 10:18:03 修改

阅读量243

点赞数 1

分类专栏：机器学习文章标签：随机森林机器学习 python

于 2021-06-28 15:51:10 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_38235865/article/details/118304966

版权

机器学习专栏收录该内容

29 篇文章 3 订阅

订阅专栏

数据：性别年龄症状（实体抽取模型抽取对主诉抽取出症状）科室

1.训练词向量（对症状去重，生成字典，使用pkuseg.pktest()分词并指定词典）
2.将对应症状转换为词向量，加上性别，年龄做随机森林的输入（性别，年龄至关重要，将验证集精准度从42%提高到84%）
3.将科室编码
4.拟合模型，测试集accuracy 为84%

实践中问题和解决办法：
Q:如何训练模型？年龄和性别转化为数值，但是症状如何处理？
A：首先想到编码，通过把每个症状用一个数值表示，训练后效果太差，因为一个症状和另一个症状的编码大小没有实际意义，机器学习分类需要算距离，该距离用编码无法表示。然后想到训练词向量，然后将症状用对应词向量表示，问题解决了。

Q：如果遇到以前没有过的症状，词向量该如何表示？
A：首先想到用字向量替换词向量，这样很少碰到没遇到过的字，但是由于每个症状字数不一，而模型输入维度数据需要一致，所以决定还是使用词向量，因为很少会出现以前没见过的症状（利用fasttext对字向量取平均作为整个句子向量的思想，或许可以用该症状的每个字向量相加平均得到一个结果表示词向量，这样不论多少字，维度都一致，有机会实践）

Q:
每条主诉信息对应的症状数量可能不一？如何保证模型输入维度一致
A：
设定每条主诉信息对应N个症状，如小于N，则补全为空症状，每个症状对应一个词向量，空症状对应的词向量为[0.0,0.0,…]

代码：
在这里插入图片描述

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
科室推荐实践（随机森林模型）

数据：性别年龄症状（实体抽取模型抽取对主诉抽取出症状）科室1.训练词向量（对症状去重，生成字典，使用pkuseg.pktest()分词并指定词典）2.将对应症状转换为词向量，加上性别，年龄做随机森林的输入（性别，年龄至关重要，将验证集精准度从42%提高到84%）3.将科室编码4.拟合模型，测试集accuracy 为84%实践中问题和解决办法：Q:如何训练模型？年龄和性别转化为数值，但是症状如何处理？A：首先想到编码，通过把每个症状用一个数值表示，训练后效果太差，因为一个症状和另一个症状
复制链接

扫一扫

专栏目录

飞锡2024 CSDN认证博客专家 CSDN认证企业博客

码龄7年

240: 原创

5万+: 周排名

9783: 总排名

31万+: 访问

: 等级

3451: 积分

432: 粉丝

543: 获赞

105: 评论

1409: 收藏

私信

关注

热门文章

分类专栏

计算机视觉 22篇
paddle 16篇
NLP算法 11篇
机器学习 29篇
pdf 5篇
DeepLearning基础 12篇
爬虫 14篇
docker 1篇
大数据 30篇
java 12篇
联邦学习 3篇

最新评论

paddle ocr模型量化实践
qq_30400291: 看到他写这个还激动了下，原来写的是待解决，老兄你解决了吗？
opencv+paddle orc 识别图片提取表格信息
Kroke: 请问最后的f y[1][0]是什么意思啊
opencv+paddle orc 识别图片提取表格信息
Kroke: 您好，请问能更详细的说说这里的代码吗
Table Transformer做表格检测和识别实践
Selvaggia: 我也遇到了这个问题，请问您解决了吗？可以分享一下经验吗^_^非常感谢！
paddle ocr模型量化实践
yuazxsdcvf: 报错：ValueError: The size of input is too big. Please consider saving it to file and ‘load_op’ to load it.这个解决了么

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。