Python使用AI人工智能技术对内容自动分类

最新推荐文章于 2024-04-10 23:02:46 发布

chuyou5674

最新推荐文章于 2024-04-10 23:02:46 发布

阅读量1.9k

点赞数 2

文章标签：人工智能 python 爬虫

原文链接：https://my.oschina.net/u/165676/blog/1836301

版权

本文介绍了使用Python和AI技术对疾病问题进行自动分类的过程，包括数据爬取、模型训练和验证。通过爬虫获取医药网站数据，然后利用AI进行训练，实现了高准确率的分类效果。此技术可应用于各类信息的自动分类，如汽车调研项目的分类预处理。

摘要由CSDN通过智能技术生成

2017年下半年有一段时间因为工作涉及AI人工智能，曾经短时间研究过，本文只是初步的研究成果，纯粹是抛砖引玉。

之前文章介绍了网络爬虫，实际上，也会AI有密切关系，因为AI在进行智能分析的之前，需要对数据进行建模，因此通过爬虫技术，在网络上获取建模数据可以提升AI处理的效率和准确性。

下面先对业务需求进行描述：假设需要对用户提问的疾病问题进行自动分类，比如呼吸科、心内科、消化内科等，自动归集起来。

处理步骤为：
1、先爬取部分医药网站的归类问题
2、使用AI对这些问题进行训练
3、通过输入某类疾病问题，验证识别效果

一、数据爬取
本示例使用的是“问医生”（https://www.jiankang.com）网站的数据，会将每个问题内容爬取到单独的文件中。

二、数据处理代码

from sklearn.datasets import loadfiles from sklearn.featureextraction.text import CountVectorizer, TfidfTransformer
from nerutils import *
from sklearn.linear_model import SGDClassifier

# 选取参与分析的文本类别
categories = ['呼吸内科', '心内科',