大数据分析岗有些神秘,主要是因为在普通人看来,超过500kb的数据都把自己给难到不行,但是大数据分析师却能处理超过10tb的数据集,这在她们看来很难理解。而对于在大数据分析岗上正在从业的人士而言,大数据分析的工作早就被流程化了,只要按照数据获得、数据清洗、数据存储、数据建模、数据分析、可视化结论等几个模块去执行,在每个环节用到不同的系统和软件,用鼠标点一点就能完成操作,不算难。
具体来说,大数据分析师的工作包含以下这些:
第一,数据获得,通过多渠道方式获得大量数据,有什么方式可以得到数据呢?
1、爬虫,就是在网上获取。
2、问卷调查,这项工作可以交给专业的收集公司,他们会安排专人在大型商场或者是车站等地进行数据收集,为了保证数据收集的高效性一般会发一些小礼物给大家。
第二,数据清洗,即便有小礼物可拿,但赶着回去煮饭的家庭主妇、赶着去上班的白领们未必会很认真的填写,所以初期收集到的数据未必是真实的,可能会参杂着一定水分,所以需要做无效数据的剔除,确保留下来的都有分析的可能性。
第三,数据建模,建模乃是大数据分析的最难点,因为数据量大,看着A数据和B数据有关联,B数据和C数据也有关联,所以这时候就需要选择不同的切入点做建模,甚至根据过去调查结果显示