数据挖掘相关知识点1

首先,作为一个新人,你要明白数据挖掘究竟是什么,这样你才能更好的融入数据分析这个行业中去。

数据挖掘:从一些原始数据中提取大量有意义的数据。像我们如何提取这些数据呢,可以通过自己编写爬虫代码对网站的信息进行提取,也可以使用市面上的爬虫软件进行提取,当然公司里也会有内部的数据库,进行数据库的数据提取,也可以通过各种路径购买的数据

各个行业都有其对面的挖掘模型:

  1. 电信:客户流失预警,客户细分,客户召回
  2. 互联网:猜你喜欢,娱乐推荐,精准广告投放
  3. 银行:个人信用评分模型,欺诈检测
  4. 保险:保险欺诈检测,产品交叉销售
  5. 零售:商品关联分析,KFM客户价值
  6. 公安:社会犯罪预警,犯罪识别

以电信公司来举例,数据挖掘的对象主要针对客户,分为客户获取,客户提升,客户成熟,客户衰退,客户离网这几个过程,在客户获取方面,需要我们开展客户策反专题分析和客户转网专题分析,在客户提升,客户成熟这两个阶段主要是通过对客户的细分,进行对客户人物画像,在客户的衰退阶段,我们就需要做流失预警的专题分析,最后客户离网后,不仅要做离网的专题分析,也要做召回的专题分析。

数据挖掘不是一个单一的过程,它是一个循环反复,不断优化的过程,是业务主导而非技术主导的过程,总的来说就是如下的过程:业务理解——数据理解——数据准备——模型建立——模型评估——部署应用。

数据清洗:将多余重复的数据筛选清除,将缺失的数据补充完整,补充和替换数据。

数据维度处理:维度上卷:低维变高维;维度下钻:多维变少维,维度降解。

数据归一可以通过min—max标准化和Z-score标准化

我们对数据还要进行抽样,不可能将所有数据都用来分析,有随机抽样,规律抽样以及抽取前n条数据。

预测的类别主要分为:定性预测:根据预测者的经验理论以及业务水平;

定量预测:就是通过调查的统计资料。分为因果分析预测,时间序列预测以及人工智能。

其中因果分析预测又分为线性回归,非线性回归,灰色系统以及马尔科夫预测;时间序列预测又分移动平均法,指数平滑法以及BOX-Jenkins法。

线性回归分为专家会议法,德尔菲法以及类推预测法。

预测误差=不确定性+信息不完整+预测模型。

数据分析最重要的还是算法,我会在下一个博客介绍我对算法的理解。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值