第一章 当思考从感觉描述到数据描述
1.1 感觉描述——大概,好像,犹豫不断
大家所熟知的天气预报,现在靠的是大型计算机处理卫星和气象站采集的气象数据得出的预测结果。而在古时候,则是术士们登高望远,掐指一算也能有个大概,其实大多是古人的经验,比如古人流传下来的很多“天气谚语”:朝霞不出门,晚霞行千里;燕子低飞蛇过道,鸡不回笼喜鹊;雷公岩岩叫,大雨毛快到;久雨闻鸟鸣,不久即转晴;泥鳅跳,风雨到;等等,可以在网上搜索“天气谚语”,就知道天气预报的发展史就是从感觉描述到数据计算描述的发展过程。
传感器——即古时候靠动植物行为状态充当天气变化的“传感器”,是间接的方式;而现代靠专业的气象站及卫星等“传感器”采集数据,是直接方式。
数据处理——古时候靠经验,及燕子低飞或蛇过道时一般会下雨。现代则是靠严格的科学计算,推算气候形成的可能性及类型。
古人留给我们的“迷信”文化(包括算命等)虽然是靠长久的调查总结得出来的,有一定的准确性,但是古人的感觉描述是很简单的经验积累,属于大概率事件罢了,用数学描述大多是分段函数y=x。不用计算机,心算就可以了,而且这些经验经过千百年历史考验才有较高准确度。
而我们日常生活中碰到的问题大多是没有经验可言的,或是问题非常复杂,一般要考虑较多的因素。举个淘宝购物的例子:
问题:淘宝购物选择
决策依据1:品牌
如果是公认的品牌,则选购商品1
决策依据2:销量
如果该物件销量非常好,则选购商品2
决策依据3:用户评价
如果用户客观评价非常高,则选购商品3
一般好的商品应综合考虑后最最后的决定,但过个一时半会再次考虑时似乎又有所动摇,甚至改变原先决定…反反复复。
1.2 数字描述——让数据挖掘变成填空题和计算题
同样的问题,计算机却是通过数学的方式进行决策的,可以大致分为以下几步:
一、计算机做填空题(获取数据),数据应尽可能准确、客观。
二、计算机做计算题/逻辑判断题(根据某一约束原则进行计算,这一原则往往是最优原则)
依据 | 商品1 | 商品2 | 商品3 | 权重 |
品牌 | 60 | 80 | 70 | 20% |
销量 | 80 | 80 | 70 | 30% |
用户评价 | 90 | 60 | 70 | 50% |
得分 | 81 | 76 | 70 |
|
约束原则:按权重计算,分值越高,越是最佳决策 得分=品牌分×品牌权重+销量分×销量权重+用户评价分×用户评价权重 |
经过权重计算后计算机认为商品1得分为81分,因此是最佳选择。
1.3 用数据描述万事万物
上面分析了一个简单的问题分别由人脑和计算机处理的方式及结果,其实对很多问题都可以用数学来描述、解释。计算机软硬件都是人类设计的,不管是硬件上还是算法上,大多是在基础科学的基础上模拟人类的思考方式来进行设计的,所以计算机自然的就能实现两大功能:1、辅助人类思考;2、模拟人类思考工作;
1.3.1你相信数学可以描述万事万物吗?
小学时候数学应用题就是简单的数学应用,中学则是更丰富的数学应用基础,到了大学,工科、理科,几乎所有的专业都离不开数学,不同专业很多是同样的理论在不同领域的具体应用却取了不一样的名字,只要某个数学理论具有某一问题的属性特点,就能描述该问题的相应属性。可惜数学名词大多从数学的角度命名,而不是通俗的属性描述。如“微积分”理论用于描述事物变化趋势,若命名为“趋势因子/累加因子”可能更让人易于理解,之所以命名为微积分,估计是数学家研究微积分的思路是将曲线分成细微的无穷多段后命名的,中文翻译过来也是微积分了。
理工科为什么离不开数学,下面举个简单的例子,用数学描述小明从小到大的发家史。
小学应用题:小明过年领压岁钱,爸爸给100,妈妈给100,请问小明今年一共得到多少压岁钱?
解:100+100=200元
答:小明今年一共得到了200元压岁钱。
中学应用题: 听说淘宝理财能赚钱,小明把压岁钱存到了支付宝,每天收益率固定是5%,请问多少天后小明账号资金超过300元?
解: log(1+0.05)300/200≈8.31天
答:8.31天后小明账号资金超过了300元。
大学应用题:为了更快赚钱,小明把300块压岁钱用于炒股,请对股市的指数的基本趋势进行预测、给出预测区间;
解:现在先考虑股市的趋势因素q(t),假设q(t)为一元线性模型,只跟自上市以来的交易日个数有关,可写出表达式为q(t)=k1*t+k2。
用最小二乘曲线拟和法对趋势因素q(t)=k1*t+k2 参数进行估计。
设一组数据t(i),y(i),i=1,2,……N,且已知这组数据满足某一函数原型 z(t)=f(a,x),其中a待定系数向量,则最小二乘曲线拟合的目标就是求出这一组待定系数的值,使得目标函数
Error = |理想值-实际值|之和为最小。(计算量大,一般用计算机求解)
假设计算可得:k1=18,k2= 8240.4,即有:q(t)=18*t+8240.4。
答:股市指数的基本趋势可描述为q(t)=18*t+8240.4。
研究生应用题:好多年后,小明炒股炒到了500元,但还是嫌炒股赚钱太慢、风险高。世界杯来了,想通过淘宝购买足彩一夜暴富,请给小明出出主意。
解:用数据挖掘吧,详情将在后面讲述…(详见本文3.3)