一、什么是机器学习?
机器学习是一种能够赋予机器学习的能力以此让它完成直接编程无法完成的功能的方法。但从实践的意义上来说,机器学习是一种通过利用数据,训练出模型,然后使用模型预测的一种方法。
二、监督学习
1.基本思想
数据集中的每个样本都有相应的“正确答案”,再根据这些样本做出预测,得到未知数据的“正确答案”,算法的目的是给出更多正确答案。
2.示例如下:
(1)回归问题:离散数据集—连续输出
- 如房价预测,根据离散样本集拟合出一条连续曲线,得到房子的“估价”
(2)分类问题
- 例如:根据肿瘤特征组(可以为多个或无限个特征)判断良性还是恶性,得到的是结果是“良性”或者“恶性”,是离散的。此外,在用大数量的特征做预测时,你的计算机可能会溢出,如何处理无个特征?吴恩达老师在视频中提到了,支持向量机为例,有能灵活处理这个问题的算法。后面会补充如何处理这个问题的相关内容。
三、无监督学习
1.理解:
无监督学习的数据集跟监督学习的数据集不同,它没有任何标签,即没有相应的“正确答案”。 非监督学习指,给出一组无标签的数据集,通过学习而得到数据的某种结构。
2.应用实例:
(1)聚类问题:可能判定数据为两个不同的聚集簇,称为聚类算法。(聚类算法应用较广,如GOOGLE NEWS)
(2)鸡尾酒会问题(cocktail party problem algorithm):分离音频问题
(3)新闻事件分类:谷歌新闻每天都在,收集非常多,非常多的网络的新闻内容。它再将这些新闻分组,组成有关联的新闻。所以谷歌新闻做的就是搜索非常多的新闻事件,自动地把它们聚类到一起。
(4)市场分割:许多公司有大型的数据库,存储消费者信息。所以,检索这些顾客数据集,自动地发现市场分类,并自动地把顾客划分到不同的细分市场中,才能自动并更有效地销售或不同的细分市场一起进行销售。