1.描述k-means均值聚类过程?
(1)从一系列数据D中任意选择K个对象作为初始簇的中心
(2)根据数据到聚类中心的距离,对每个对象进行分配
(3)更新聚类中心位置,即计算每个簇中所有对象的质心,将聚类中心移动到质心位置
(4)重复过程(2)(3)
(5)直到聚类中心不再发生变化
2.自然语言处理流程?
①词条化,既形态学分割;是将给定的文档拆分为一系列最小单位的子序列过程,其中的每一个子序列我们成为词条;
②词干还原/(词干提取),是将不同词形的单词还原成其原型;
③词型归一,和词干还原的目的一样,都是将单词的不同词型转化为其原型;
④词性标注,既给定一个句子,确定每个单词的词性,例如:英语中”book”可以是名词或动词;
3.列举学过的机器学习算法?
监督学习:分类:k-近邻算法、贝叶斯分类、决策树与随机森林、逻辑回归、神经网络
回归:线性回归、岭回归
无监督学习:聚类:k-means
监督学习:可以由输入数据中学到或建立一个模型,并依此模式推测新的结果。输入数据是由输入特征值和目标值所组成。函数的输出可以是一个连续的值(称为回归),或是输出是有限个离散值(称作分类)。
无监督学习:可以由输入数据中学到或建立一个模型,并依此模式推测新的结果。输入数据是由输入特征值所组成。
4.分析k近邻算法优缺点?
优点:简单、易于理解,易于实现,无需估计参数,无需训练;
缺点:每次分类都会进行一次全局计算,数据量大时,计算开销大;
必须指定K值,K值选择不当则分类精度不能保证;
样本不均衡,预测偏差较大;
5.数据挖掘的两大目标分为预测和描述,监督学习和无监督学习分别对应哪类目标?监督学习和无监督学习的定义是什么?分别从监督类学习和无监督类学习中找一类算法的实例应用进行举例说明。
1.监督学习对应预测,无监督学习对应描述
2.监督学习:从标记的训练数据来推断一个功能的机器学习任务
无监督学习:根据类别未知(没有标记)的训练样本解决模式识别中的各种问题。
3.监督学习举例:分类算法,利用分类算法进行垃圾电子邮件的分类。
无监督学习举例:聚类算法。利用聚类算法,如网购平台,通过用户购物喜好等进行聚类,即客户群体的划分