(1)学习笔记——数据分析全景图

数据分析的三个重要组成部分

1、数据采集

数据采集采集过程,常用的数据源包括:开源数据源、爬虫抓取、日志采集、传感器等
常用的自动抓取数据分工具有:八爪鱼、搜集客、火车采集器等
Python爬虫:Selenuim、lxml、Scrapy、phantomjs

2、数据挖掘
数据挖掘基本流程:
商业理解→数据理解→数据准备→模型建立→模型评估→上线发布

商业理解:从商业的角度理解项目需求,在此基础上对数据挖掘的目标进行定义
数据理解:尝试收集部分数据并对数据进行探索,包括数据描述、数据质量验证等
数据准备:开始收集数据,并对数据进行清洗和预处理等操作
模型建立:选择和应用各种数据挖掘模型并进行优化,以便得到最好的结果
模型评估:对模型进行评价,检查构建模型的每个步骤,确认模型是否实现了预定商业目标
上线发布:呈现的形式可以是一份报告,也可以是实现一个比较复杂的可重复的数据挖掘过程,如果是日常运营的一部分,后续的监控和维护也很重要

数据挖掘十大算法:
(1)分类算法:C4.5、朴素贝叶斯、SVM、KNN、Adaboost、CART
(2)聚类算法:K-means、EM
(3)关联分析:Apriori

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值