数据分析与数据挖掘

数据挖掘

数据挖掘是指对大量的数据进行分析与挖掘,得到一些未知的,有价值的信息等,比如从网站的用户或用户行为数据挖掘出用户的潜在需求信息。
数据挖掘技术可以帮助我们更好的发现事物之间的规律。
业务场景:发现窃电用户、发掘用户潜在需求、个性化推荐、疾病与症状/疾病与药物之间的规律

数据挖掘过程

1、定义目标
2、获取数据(爬虫、下载一些统计网站发布的数据、自有数据)
3、数据探索:对数据进行初步的研究和探索,没有具体的流程把控
4、数据预处理(数据清洗【去掉脏数据】、数据集成【集中】、数据变换【规范化】、数据规约【精简】)
5、挖掘建模(分类、聚类、关联、预测)
6、模型评价与发布

备注:所谓脏数据就是一些无效的、或者异常的数据
数据集成:即是将不同来源的数据集中到一起,可能数据来自于多个地方
数据变换:在不改变数据结构的情况下对数据进行变换,目的是将数据进行规范化
数据规约:即是对数据能合并的就进行合并,能精简的就精简

相关模块

1、numpy
2、pandas:主要用于数据探索和数据分析
3、matplotlib:作图、解决可视化问题
4、scipy:提供了很多高等数据处理功能,比如:积分、傅里叶变换、微分方程求解等
5、statsmodels:主要用于统计分析
6、Gensim:主要用于文本挖掘
7、sklearn、keras:前者机器学习,后者深度学习

数据导入

1、导入csv数据:
a=pd.read_csv()
a.describe()
a.sort_values(by=‘qq’):按照某一列排序
2、导入excel数据:
a = pd.read_excel()

3、导入Mysql数据库里的数据
import pymysql
conn = pymysql.connect(“localhost”,“testuser”,“test123”,“TESTDB” )
sql = “select * from a”
data = pd.read_sql(sql, conn)

4、导入html数据
data = pd.read_html() # 直接将表格中的数据提取出来

5、直接从网页读取
data = pd.read_html(‘https://www.douban.com/’) # 从在线的网页读取表格内的内容

6、导入文本数据
data = pd.read_table()

可视化

折线图: plot【pandas或matplotlib.pyplot】, plt.shpw()
参数:plot(x,y,展现形式)
直方图:hist

数据分析

探索性数据分析:https://www.cnblogs.com/hgz-dm/p/10886148.html
所谓数据分析,即对已知的数据进行分析,然后提取出一些有价值的信息,比如统计出平均数、标准差等,数据分析的数据量有时候可能不会太大。

数据分析思维技巧

象限法

多维法

假设法

指数法

很多时候我们有数据,但不知道怎么应用。就是因为缺乏了一个有效性的方向,这个方向可以成为目标函数,通过将数据加工成指数,达到聚焦的目的。很多是凭借经验公式

  1. 线性加权
  2. 反比例:为了让数字收敛, y=1/x, y=x/(x+1)
  3. log:eg,热度=UV+评论+时间热度衰减

二八法则

帕累托图:往往称为二八原理,即百分之八十的问题是百分之二十的原因所造成的。帕累托图在项目管理中主要用来找出产生大多数问题的关键原因,用来解决大多数问题。

  1. 数据中20%的变量将直接产生80%的效果,数据分析应围绕这20%作文章
  2. 持续关注TopN的数据是一个非常好的习惯
  3. 虽然指标很多,但往往某些指标更有价值,二八法则不仅能分析数据也能管理数据

对比法

好的数据指标,一定是比例或者比率
好的数据分析,一定会用到对比

孤数不证
对比法:竞争对手对比、类别对比、特征和属性对比、时间同比环比、转化对比、前后变化对比

漏斗法

业务指标

经典指标

在这里插入图片描述

市场营销指标

  1. 客户/用户生命周期:企业/产品和消费者在整个业务关系阶段的周期。不同业务划分的方式不同,传统营销中,分为:潜在用户、兴趣用户、新客户、老/熟客户、流水客户。
  2. 用户价值:
  3. RFM模型:是用户生命周期中,衡量客户价值的立方体模型。利用R最近一次消费时间,M总消费金额,F消费频次,将用户划分成多个群体。
  4. 用户分群,营销矩阵:用户分群是市场营销中的一种常见策略,它提取用户的几个核心维度,用象限法将其归纳与分类。

产品运营指标

  1. AARRR:Acquisition用户获取、Activation用户活跃、Retention用户留存、Revenue营收、Refer传播。
  • 用户获取:渠道到达量(曝光量)、渠道转化率(包含CPM、CPC、CPS、CPD、CPT等)、渠道ROI(投资回报率,利润/投资*100%)
  • 用户活跃:活跃用户占比、用户会话占比、用户访问时长、用户平均访问次数
  • 营收:付费用户数、付费用户占比、ARPU、ARPPU、客单价、LTV
  • 传播:K因子(每个用户能够带来几个新用户)、用户分享率、活动/邀请曝光量
    在这里插入图片描述

用户行为指标

  1. 功能使用:点赞、评论、收藏、关注、搜索、添加好友
  2. 用户会话:
  3. 用户路径
    在这里插入图片描述

电子商务指标

  1. 购物篮分析:笔单价、件单价、成交率、购物篮系数
  2. 好基友:复购率或回购率
    在这里插入图片描述

流量指标

  1. 浏览量(PV)和访客量(UV)
  2. 访客行为:新老访客占比、访问时间、访客平均访问页数、来源、用户行为转化率、首页访客占比
  3. 退出率和跳出率
    在这里插入图片描述
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值