2018年02月_梵天的读书笔记

12月 07月 06月 04月 03月 02月 01月

原创概述推荐系统----推荐系统读书笔记

1. 什么是推荐系统？ 1.1. 为了解决信息过载（Information overload） 1.2. 发掘物品的长尾（long tail）推荐系统就是自动联系用户和物品的一种工具，它能够在信息过载的环境中帮助用户发现他们感兴趣的信息，也能将信息推送给它们感兴趣的用户。2. 个性化推荐系统的应用 2.1. 电子商务 2.2. 电影和视频网站 2.3. 个性化音乐网络电台 2.4....

2018-02-26 23:25:26 326

优点：泛化错误率低，计算开销不大，结果易解释。缺点：对参数调节和核函数的选择敏感，原始分类器不加修改仅适用于处理二类问题。适用数据类型：数值型和标称型数据。流程：(1) 收集数据：可以使用任意方法。 (2) 准备数据：需要数值型数据。 (3) 分析数据：有助于可视化分隔超平面。 (4) 训练算法： SVM的大部分时间都源自训练，该过程主要实现两个参数的调优。 (5) 测试算法：十分简单的计算过程就...

2018-02-25 10:23:37 208

原创 Logistic回归----机器学习读书笔记

优点：计算代价不高，易于理解和实现。缺点：容易欠拟合，分类精度可能不高。适用数据类型：数值型和标称型数据。线性回归，采用梯度上升优化，类似于单层BP神经网络（BP采用梯度下降法）实现代码如下：import numpy as np import matplotlib.pyplot as plt #获取数据集 def loadDataSet(): #假设回归线为y=0.5x+0.3,回归线上...

2018-02-12 20:29:58 224

原创朴素贝叶斯----机器学习读书笔记

优点：在数据较少的情况下仍然有效，可以处理多类别问题。缺点：对于输入数据的准备方式较为敏感。适用数据类型：标称型数据。使用朴素贝叶斯进行文档分类，步骤：获取原始数据集（语句）和相应标签（文档的分类）将原始数据集进行分词处理（英文以空格为分割），处理掉标点等其它符号，生成单词数组通过单词数组生成词汇表（统计所有单词，除去重复，并生成列表）将原始数据集通过词汇表转换为文档向量（向量长度为词汇表长度，语...

2018-02-11 17:47:48 192

原创决策树----机器学习读书笔记

优点：计算复杂度不高，输出结果易于理解，对中间值的缺失不敏感，可以处理不相关特征数据。缺点：可能会产生过度匹配问题。适用数据类型：数值型和标称型。步骤：收集原始数据集（数据向量及特征标签），数据向量最后一项为分类标签以分类标签为基准，计算该原始数据集的熵E0根据特征标签，分别计算按特征划分数据集后的子数据集的熵Ei，E0-Ei为该划分的信息增益，选择信息增益最大的划分（这表示该划分熵最小，最有序）...

2018-02-11 11:03:31 172

原创 k-近邻算法----机器学习读书笔记

优点：精度高、对异常值不敏感、无数据输入假定。缺点：计算复杂度高、空间复杂度高。适用数据范围：数值型和标称型。步骤：1. 获取原始数据集（数据向量和标签）2. 输入待分类数据向量，计算该向量与每个原始数据集向量的距离3. 对所有距离排序（从近到远），取前k个最近的原始数据集，查看其标签4. 前k个最近数据的标签中，出现次数最多的标签为待分类向量的预测标签。计算两个向量点xA和xB之间的距离： P...

2018-02-11 10:43:07 107