以点一份披萨为例,讲清数据分析全流程。
01播种
农场的西红柿提供了披萨的配料,在农场播种西红柿种子。这就相当于数据生成过程,比如用户操作,触发传感器,前端埋点等。
02收获
采摘成熟的西红柿。这就相当于数据收集,将用户的交互行为记录为实际数据。友盟等就提供了第三方的埋点支持。
03运输
西红柿被运往目的地。这就相当于数据被存储在数据库或数据湖中。
04选择厨具和设备
每种食材都有适合自己的工具,要切土豆丝就用刀,要搅拌就用勺子,设备上,要加热就用烤箱,要炒菜就用微波炉。“工具”这就好比数据分析中的数据预处理技术。“设备”就好比线性回归,随机森林等算法。需要注意的是,并不是设备越复杂,做出的菜越好吃。
05选择菜谱
你做菜所需要的所有步骤。这就相当于模型,模型与算法不同。模型包括所有算法需要的预处理和之后的处理过程。
06准备材料
削皮,洗蔬菜,因为没人想吃没有洗过的蔬菜。这就好比数据预处理过程。比如,处理缺失值,重复值,更改数据类型,进行哑变量编码,选择数据子集,确保数据合法(比如出现年龄超过1