分词之后的如何做特征选择_如何去实践一个完整的数据挖掘项目

如何去实践一个完整的数据挖掘项目机器学习项目1 抽象成数学问题(明确问题)2 获取数据3 特征预处理与特征选择4 训练模型与调优5 模型诊断6 模型融合(非必须)7 上线运行大部分机器学习项目死在第1步和第2步,平时我们说的机器学习,指的是3、4、5这3步,实践中,其实最难的是业务理解这一步,业务理解OK了,后面的一切都有章可循。NLP项目1 获取语料已有语料:业务部门、公司积累大量的文...
摘要由CSDN通过智能技术生成

如何去实践一个完整的数据挖掘项目

机器学习项目

1 抽象成数学问题(明确问题)

2 获取数据

3 特征预处理与特征选择

4 训练模型与调优

5 模型诊断

6 模型融合(非必须)

7 上线运行

大部分机器学习项目死在第1步和第2步,平时我们说的机器学习,指的是3、4、5这3步,实践中,其实最难的是业务理解这一步,业务理解OK了,后面的一切都有章可循。

NLP项目

1 获取语料

已有语料:业务部门、公司积累大量的文本数据
网上下载、抓取语料:可以通过爬虫自己去抓取一些数据,然后进行加工。

2 语料预处理

语料预处理大概会占到整个50%-70%的工作量,通过数据洗清、分词、词性标注、去停用词四个大的方面来完成语料的预处理工作。

四大方面

a

语料清洗:就是在语料中找到我们感兴趣的东西,把不感兴趣的视为噪音的内容清洗删除,如:对于爬取的网页内容,需要去除广告、标签、HTML、JS等代码和注解等。 

b

分词:中文语料数据为一批短文本或长文本,如:句子、文章摘要、段落或整篇文章组成的一个集合。一般句子、段落之间的字、词语是连续的,有一定含义。

c

词性标注:就是给每个词或者词语打词类标签,如形容词、动词、名词等。这样做可以让文本在后面的处理中融入更多有用的语言信息。如,常见的文本分类就不用关心词性问题,但是类似情感分析、知识推理却是需要的。 

d

去停用词:停用词一般指对文本特征没有任何贡献作用的字词,比如标点符号、语气、人称等一些词。所以在一般性的文本处理中࿰

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值