1 导言
一、集体智慧
将一群人的行为、偏好或思想组合到一起。
二、注意点
- 从一大群人中搜集的答案可以使我们得到关于群组的统计结论:组中的个体成员将会被忽略。
- 从独立的数据提供者那里得出新的结论是集体只会所真正关注的。(有待体会)
三、Wikipedia和google的例子
Wikipedia明确邀请网站的用户提供内容,Google则从Web内容的创建者对自己网站的操作中提取重要信息,并利用这些信息为Google的使用者设定各个网站的分值。
- Wikipedia归功于提供内容的用户,非算法
- Google则更依赖于PageRank算法
四、数据收集
- 明确收集:询问和评价
- 偶然收集:观察用户行为
- 收集后进行数据智能化处理
五、机器学习
- 其是人工智能领域与算法相关的一个子域,允许计算机不断进行学习。
在大多数情况下,相当于将数据传递给算法,由算法推断出与这些数据的属性相关的信息,再由算法通过这些信息预测未来可能出现的数据。
数据—(算法/推断)—>信息—(算法/借助)—>预测数据 - 非随机数据中,包含模式
归纳训练:根据模式归纳数据,机器利用数据中的重要特征对数据进行训练,并借此得到一个模型。 - 例子:电子邮件过滤–参考贝叶斯(py-email)
- 算法:
决策树,直观,可通过眼睛观察理解推导过程;
神经网络,黑盒,复现推导过程非常困难; - 倚仗数学和统计学(是时候复习高数、离散、线代、概率统计了)
- 局限:如果一个模式不同于算法先前所曾见过的任何其他模式,它很可能会被误解。