机器学习包括了很多方向,原本以为机器学习只是某一个方向,其实不然,里面还包括了N多种小方向,N多种算法。机器学习是对数据挖掘的实际的应用,文本挖掘与机器学习的结合可以更好的了解有用信息。
文本挖掘与数据挖掘的区别和联系
区别:文本挖掘:文档本身是半结构化的或非结构化的,无确定形式并且缺乏机器可理解的语义;
数据挖掘:其对象以数据库中的结构化数据为主,并利用关系表等存储结构来发现知识;
数据挖掘已不是什么方兴未艾的新兴技术,在业界远未普及,但是,理论技术已经高度发达,对于某些问题解决也几近成熟。文本挖掘面临好多问题。
大多数情况,数据挖掘的技术不适用文本挖掘,或至少需要预处理。
联系:数据挖掘和文本挖掘不是两个完全不同概念。事实上,他们都基于对以前样例的抽样分析,虽然样例组成大不相同,但是许多学习方法是相似的。因此,在文本挖掘过程中,文本将转换为数字形式。
文本挖掘流程第一步就是特征提取,它是一个文档降维的过程。特征提取又可以分为特征选取和特征抽取。