数据挖掘
数据挖掘是指对大量的数据进行分析与挖掘,得到一些未知的,有价值的信息等,比如从网站的用户或用户行为数据挖掘出用户的潜在需求信息。
数据挖掘技术可以帮助我们更好的发现事物之间的规律。
业务场景:发现窃电用户、发掘用户潜在需求、个性化推荐、疾病与症状/疾病与药物之间的规律
数据挖掘过程
1、定义目标
2、获取数据(爬虫、下载一些统计网站发布的数据、自有数据)
3、数据探索:对数据进行初步的研究和探索,没有具体的流程把控
4、数据预处理(数据清洗【去掉脏数据】、数据集成【集中】、数据变换【规范化】、数据规约【精简】)
5、挖掘建模(分类、聚类、关联、预测)
6、模型评价与发布
备注:所谓脏数据就是一些无效的、或者异常的数据
数据集成:即是将不同来源的数据集中到一起,可能数据来自于多个地方
数据变换:在不改变数据结构的情况下对数据进行变换,目的是将数据进行规范化
数据规约:即是对数据能合并的就进行合并,能精简的就精简
相关模块
1、numpy
2、pandas:主要用于数据探索和数据分析
3、matplotlib:作图、解决可视化问题
4、scipy:提供了很多高等数据处理功能,比如:积分、傅里叶变换、微分方程求解等
5、statsmodels:主要用于统计分析
6、Gensim:主要用于文本挖掘
7、sklearn、keras:前者机器学习,后者深度学习
数据导入
1、导入csv数据:
a=pd.read_csv()
a.describe()
a.sort_values(by=‘qq’):按照某一列排序
2、导入excel数据:
a = pd.read_excel()
3、导入Mysql数据库里的数据
import pymysql
conn = pymysql.connect(“localhost”,“testuser”,“test123”,“TESTDB” )
sql = “select * from a”
data = pd.read_sql(sql, conn)
4、导入html数据
data = pd.read_html() # 直接将表格中的数据提取出来
5、直接从网页读取
data = pd.read_html(‘https://www.douban.com/’) # 从在线的网页读取表格内的内容
6、导入文本数据
data = pd.read_table()
可视化
折线图: plot【pandas或matplotlib.pyplot】, plt.shpw()
参数:plot(x,y,展现形式)
直方图:hist
数据分析
探索性数据分析:https://www.cnblogs.com/hgz-dm/p/10886148.html
所谓数据分析,即对已知的数据进行分析,然后提取出一些有价值的信息,比如统计出平均数、标准差等,数据分析的数据量有时候可能不会太大。
数据分析思维技巧
象限法
多维法
假设法
指数法
很多时候我们有数据,但不知道怎么应用。就是因为缺乏了一个有效性的方向,这个方向可以成为目标函数
,通过将数据加工成指数,达到聚焦的目的。很多是凭借经验公式
- 线性加权
- 反比例:为了让数字收敛, y=1/x, y=x/(x+1)
- log:eg,热度=UV+评论+时间热度衰减
二八法则
帕累托图
:往往称为二八原理,即百分之八十的问题是百分之二十的原因所造成的。帕累托图在项目管理中主要用来找出产生大多数问题的关键原因,用来解决大多数问题。
- 数据中20%的变量将直接产生80%的效果,数据分析应围绕这20%作文章
- 持续关注TopN的数据是一个非常好的习惯
- 虽然指标很多,但往往某些指标更有价值,二八法则不仅能分析数据也能管理数据
对比法
好的数据指标,一定是比例或者比率
好的数据分析,一定会用到对比
孤数不证
对比法:竞争对手对比、类别对比、特征和属性对比、时间同比环比、转化对比、前后变化对比
漏斗法
业务指标
经典指标
市场营销指标
- 客户/用户生命周期:企业/产品和消费者在整个业务关系阶段的周期。不同业务划分的方式不同,传统营销中,分为:潜在用户、兴趣用户、新客户、老/熟客户、流水客户。
- 用户价值:
- RFM模型:是用户生命周期中,衡量客户价值的立方体模型。利用R最近一次消费时间,M总消费金额,F消费频次,将用户划分成多个群体。
- 用户分群,营销矩阵:用户分群是市场营销中的一种常见策略,它提取用户的几个核心维度,用象限法将其归纳与分类。
产品运营指标
- AARRR:Acquisition用户获取、Activation用户活跃、Retention用户留存、Revenue营收、Refer传播。
- 用户获取:渠道到达量(曝光量)、渠道转化率(包含CPM、CPC、CPS、CPD、CPT等)、渠道ROI(投资回报率,利润/投资*100%)
- 用户活跃:活跃用户占比、用户会话占比、用户访问时长、用户平均访问次数
- 营收:付费用户数、付费用户占比、ARPU、ARPPU、客单价、LTV
- 传播:K因子(每个用户能够带来几个新用户)、用户分享率、活动/邀请曝光量
用户行为指标
- 功能使用:点赞、评论、收藏、关注、搜索、添加好友
- 用户会话:
- 用户路径
电子商务指标
- 购物篮分析:笔单价、件单价、成交率、购物篮系数
- 好基友:复购率或回购率
流量指标
- 浏览量(PV)和访客量(UV)
- 访客行为:新老访客占比、访问时间、访客平均访问页数、来源、用户行为转化率、首页访客占比
- 退出率和跳出率