人:非凡能力,不管对错,对未来有一定的预判(我觉得也是受限于人的知识储备,否则对新的信息进行决策时,仍然不能从中识别出相似的信息);
机器:受限于大量模式之上的归纳能力。因此若出现不同于算法先前所曾见到过的任何其他模式,就可能被“误解”。
1.生物工艺学:测序技术和筛选技术(算法导论中的动态规划算法来实现LCS计算)——DNA序列、蛋白质结构;
2.金融欺诈侦测:信用卡公司侦测交易是否存在欺诈——神经网络和归纳逻辑
3.机器视觉:军事或监控,自动识别事物(人脸、声音、图像等等)——从大数据集中发现有趣特征的独立组元分析技术
4.预测:
产品市场化:预测市场未来的发展、价格等趋势——聚类
供应链优化:预测不同地区的产品需求以及供应链的有效运行来预估成本投入
股票市场分析:
国家安全:分析潜在的威胁
协作型过滤:
背景:选择越来越多,通过询问小部分人来确定我们想要的东西,变得不靠谱,因为这小部分人并不了解所有的选择;(局部->整体,准确度不够)
思路:对一大群人进行搜索,并从中找出与我们品位相近的一小群人;(整体->局部,筛除一些不相关的样本,排除干扰)
算法作用:对这些人所偏爱的其他内容进行考察,并将它们组合起来构造出一个经过排名的推荐列表。
偏好空间计算方法:
欧几里德距离;以经过人们一致评价的物品为坐标轴,然后将参与评价的人绘制到图上,并考查他们彼此间的距离远近。
皮尔逊相关度评价:判断两组数据与某一直线拟合程度的一种度量。针对数据不规范的时候,会倾向于给出更好的结果。
皮尔逊的计算过程:
1. 找出评论者评价过的物品,然后计算两者的评分总和与平方和,并求得评分的乘积之和;
2. 利用上面的计算结果计算出皮尔逊相关系数。
皮尔逊的评判标准:相关系数范围为[0,1],而且系数值越大表示相关性越高。
两种计算方法的差异在于:欧几里德完全从数据的特征来计算两种数据之间的关系;而皮尔逊相关度是从产生数据的来源