数据分析的三个重要组成部分
1、数据采集
数据采集采集过程,常用的数据源包括:开源数据源、爬虫抓取、日志采集、传感器等
常用的自动抓取数据分工具有:八爪鱼、搜集客、火车采集器等
Python爬虫:Selenuim、lxml、Scrapy、phantomjs
2、数据挖掘
数据挖掘基本流程:
商业理解→数据理解→数据准备→模型建立→模型评估→上线发布
商业理解:从商业的角度理解项目需求,在此基础上对数据挖掘的目标进行定义
数据理解:尝试收集部分数据并对数据进行探索,包括数据描述、数据质量验证等
数据准备:开始收集数据,并对数据进行清洗和预处理等操作
模型建立:选择和应用各种数据挖掘模型并进行优化,以便得到最好的结果
模型评估:对模型进行评价,检查构建模型的每个步骤,确认模型是否实现了预定商业目标
上线发布:呈现的形式可以是一份报告,也可以是实现一个比较复杂的可重复的数据挖掘过程,如果是日常运营的一部分,后续的监控和维护也很重要
数据挖掘十大算法:
(1)分类算法:C4.5、朴素贝叶斯、SVM、KNN、Adaboost、CART
(2)聚类算法:K-means、EM
(3)关联分析:Apriori