分词之后的如何做特征选择_如何去实践一个完整的数据挖掘项目

最新推荐文章于 2021-02-05 06:11:30 发布

weixin_39889642

最新推荐文章于 2021-02-05 06:11:30 发布

阅读量374

点赞数

文章标签：分词之后的如何做特征选择

本文链接：https://blog.csdn.net/weixin_39889642/article/details/111652429

版权

如何去实践一个完整的数据挖掘项目机器学习项目1 抽象成数学问题(明确问题)2 获取数据3 特征预处理与特征选择4 训练模型与调优5 模型诊断6 模型融合(非必须)7 上线运行大部分机器学习项目死在第1步和第2步，平时我们说的机器学习，指的是3、4、5这3步，实践中，其实最难的是业务理解这一步，业务理解OK了，后面的一切都有章可循。NLP项目1 获取语料已有语料：业务部门、公司积累大量的文...

摘要由CSDN通过智能技术生成

如何去实践一个完整的数据挖掘项目

机器学习项目

1 抽象成数学问题(明确问题)

2 获取数据

3 特征预处理与特征选择

4 训练模型与调优

5 模型诊断

6 模型融合(非必须)

7 上线运行

大部分机器学习项目死在第1步和第2步，平时我们说的机器学习，指的是3、4、5这3步，实践中，其实最难的是业务理解这一步，业务理解OK了，后面的一切都有章可循。

NLP项目

1 获取语料

已有语料：业务部门、公司积累大量的文本数据
网上下载、抓取语料：可以通过爬虫自己去抓取一些数据，然后进行加工。

2 语料预处理

语料预处理大概会占到整个50%-70%的工作量，通过数据洗清、分词、词性标注、去停用词四个大的方面来完成语料的预处理工作。

四大方面

a	语料清洗：就是在语料中找到我们感兴趣的东西，把不感兴趣的视为噪音的内容清洗删除，如：对于爬取的网页内容，需要去除广告、标签、HTML、JS等代码和注解等。
b	分词：中文语料数据为一批短文本或长文本，如：句子、文章摘要、段落或整篇文章组成的一个集合。一般句子、段落之间的字、词语是连续的，有一定含义。
c	词性标注：就是给每个词或者词语打词类标签，如形容词、动词、名词等。这样做可以让文本在后面的处理中融入更多有用的语言信息。如，常见的文本分类就不用关心词性问题，但是类似情感分析、知识推理却是需要的。

d	去停用词：停用词一般指对文本特征没有任何贡献作用的字词，比如标点符号、语气、人称等一些词。所以在一般性的文本处理中࿰

最低0.47元/天解锁文章

weixin_39889642

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
分词之后的如何做特征选择_如何去实践一个完整的数据挖掘项目

如何去实践一个完整的数据挖掘项目机器学习项目1 抽象成数学问题(明确问题)2 获取数据3 特征预处理与特征选择4 训练模型与调优5 模型诊断6 模型融合(非必须)7 上线运行大部分机器学习项目死在第1步和第2步，平时我们说的机器学习，指的是3、4、5这3步，实践中，其实最难的是业务理解这一步，业务理解OK了，后面的一切都有章可循。NLP项目1 获取语料已有语料：业务部门、公司积累大量的文...
复制链接

扫一扫