数据分析

目录

一、数据分析

1.数据分析应用场景

2.数据分析可以分成三个重要的组成部分:

3.如何学习

4.数据分析基本概念

5.数据预处理

 

二、数据采集

1.数据采集框架:

2.Requests访问页面

三、数据变换

1.数据变换在数据分析中的角色

2.数据规范化

3.数据规范化、归一化、标准化区别

4.数据规范化的使用场景是什么呢?

5:最小-最大规范化(Min-max规范化)

6.Z-Score规范化

7.按小数定标规范化

四、数据挖掘

1.数据挖掘简介

2.数据挖掘: 6 步走

3.数据挖掘模型建立

4.训练街和测试集概念

五、数据可视化

1.数据可视化的意义

2.如何进行数据可视化呢?

3.可视化视图有哪些

4.基本概念介绍

5.可视化视图介绍

注意:

六、用户画像

1.用户画像概念

2.用户画像三步走

3.步骤总结


一、数据分析

1.数据分析应用场景

1.通过数据分析,可以更好地了解用户画像,为企业做留存率、流失率指标分析,进而精细化产品运营;
2.可以预测比特币的走势;
3.信用卡反欺诈、自动屏蔽垃圾邮件(能够通过数据判断是否是信用卡诈骗、垃圾邮件)
4.通过数据分析可以告诉政府该如何智慧地管理交通,做城市规划
5.通过消费数据分析,告诉企业什么时间生成什么产品,以最大化满足用户的需求
6.通过生活大数据,可以告诉企业该如何选址等
2.对数据的理解
互联网上半场是粗狂运营,因为有流量红利就不要考虑细节。
互联网下半场,精细化运营是长久的主题。有数据分析,才能让用户有更好的体验。
我们要获得更多的用户(通过用户,发现潜在用户。),激发用户的购买欲望(关联分析,这类用户还需要什么,发现用户的潜在需求),留住用户。
我们做的不是刚需,是发现用户的潜在需求
数据分析可以帮助我们理解和使用数据
为什么要使用大数据呢?
因为从大量的数据我们可以获得规律,如果数据量小,会因为异常值导致我们错误的判断。
在获客上:我们可以找到优势的宣传渠道,通过个性化有针对性的宣传手段吸引潜在需求用户,并刺激其转化
在粘客上:如何提升用户的单次消费水平和消费频次,(购买后的个性化推荐、针对优质用户进行优质高价商品推荐)以及重复购买,通过红包、优惠方式激励对优惠敏感的人群,刺激其购买欲望,提升购买频次。
在留客上:预测用户是否可能从平台上流失。
在营销领域,关于用户留存有一个观点,如果将顾客流失率降低5%,公司利润将提升25%-85%。
用户流失可能包括多种情况:用户体验、竞争对手、需求变化等

2.数据分析可以分成三个重要的组成部分:

1.数据采集。
因为任何分析都要有数据源,我们通过数据采集获得数据源。
工具采集(八爪鱼)、开源数据源、python爬虫抓取(Scrapy、Selenium、lxml、phantomjs)
2.数据挖掘。
进行数据分析,就是要找到其中的规律,来指导我们的业务。因此数据挖掘的核心是挖掘数据的商业价值,也就是我们所谈的商业智能 BI。
3.数据可视化。
数据可视化可以让我们直观地了解到数据分析的结果。

3.如何学习

1.记录自己对知识点的理解;
2.用工具来表达对知识点的掌握,并用自己的语言记录这些笔记;
3.做更多的联系巩固自己的认知,熟悉对工具的使用;

4.数据分析基本概念

利用数据预测用户购物行为属于商业智能,积累顾客的消费行为习惯会存储在数据仓库中,
通过对个体进行消费行为分析总结出来的规律属于数据挖掘。
1.商业智能
商业智能的英文是 Business Intelligence,缩写是 BI。商业智能可以预测用户的行为
2.数据仓库
数据仓库的英文是 Data Warehouse,缩写是 DW。数据仓库将原有的多个数据来源中的数据进行汇总、整理而得。数据进入数据仓库前,必须消除数据中的不一致性,方便后续进行数据分析和挖掘。
3.数据挖掘
数据挖掘的英文是 Data Mining,缩写是 DM。
类重要的数据是元数据,那么它和数据元有什么区别呢?
4.元数据和数据元
元数据(MetaData):描述其它数据的数据,也称为“中介数据”。
数据元(Data Element):最小数据单元。
举个例子,比如一本图书的信息包括了书名、作者、出版社、ISBN、出版时间、页数和定价等多个属性的信息,我们就可以把这些属性定义成一套图书的元数据。
在图书这个元数据中,书名、作者、出版社就是数据元。

5.数据预处理

数据预处理包括:数据清洗、数据集成、数据变换
1.数据清洗
数据清洗是为了去除重复数据,去噪声(即干扰数据)以及填充缺失值;
2.数据集成
将多个数据源中的数据存放在一个统一的数据存储中;
3.数据变换
将数据转换成适合数据挖掘的形式

 

二、数据采集

1.数据采集框架:

Requests:网络请求库
Selenium:浏览器自动化测试框架,模拟用户操作浏览器,对元素定位获取数据;
lxml:网页解析利器,支持HTML、XML、XPath解析,而且解析效率很高;
XPath:XML路径语言(XML Path Language),它是一种用来确定XML文档中某部分位置的语言。
Scrapy:爬虫框架,用于抓取web站点并从页面中提取结构化的数据。可以用于数据挖掘、监测和自动化测试。
PhantomJS:基于Webkit的无头浏览器,无头就是没有UI界面的意思。同时PhantomJS提供了JavaScript API接口,可以直接与Webkit内容交互。通过它,你可以完成无界面的自动化测试、网页截屏。通过网页截屏,就可以帮水军做结案报告。通过结案报告,就可以看到刷量的直观数据结果。

2.Requests访问页面

我们可以使用Requests访问页面,得到服务器返回的数据,这里包括HTML页面以及JSON数据。
针对JSON数据,可以使用JSON进行解析。
针对HTML页面,可以使用XPath进行元素定位,提取数据;
有时候我们直接用requests获取html的时候,发现想要的xpath并不存在,这是因为html还没有加载完。所以我们需要一个工具,来进行网页加载的模拟,直到完成加载后再获取完成的html。所以,使用selenium库。

三、数据变换

1.数据变换在数据分析中的角色

数据挖掘前,我们要让数据满足一定的规律,达到规范性的要求,方便进行数据挖掘。这就是数据变换的作用。
数据挖掘之前,我们要对数据进行准备。在数据变换前,我们需要对
1.对字段进行筛选(选择有效字段,去除无效字段)
2.对数据进行探索和相关性分析(探索有价值的数据,这些数据可以做什么)
3.选择算法模型
4.针对算法模型对数据的需求进行数据变换(这个模型对数据有什么要求)

2.数据规范化

数据规范化,使属性数据按比例进行缩放,这样将原来的数值映射到一个新的特定区域中。
常用的方法有:最小-最大规范化、Z-Score规范化、按小数定标规范化。

3.数据规范化、归一化、标准化区别

数据规范化是更大的概念,它指的是将不同渠道的数据,按照同一种尺度进行度量,这样一让数据间具有可比较性,二方便后续的计算。
数据归一化和数据标准化都是数据规范化的方式。
数据归一化:让数据在[0,1]或[-1,1]的区间范围内。
数据标准化让规范化的数据呈现正太分布的情况。

4.数据规范化的使用场景是什么呢?

1.距离相关的运算,比如在k-means、knn以及聚类算法中,我们有对距离的定义,所以在做这些算法前,需要对数据进行规范化。
2.有些算法用到了梯度下降作为优化器,这是为了提高迭代收敛的效率,也就是提升找到目标函数最优解的效率。我们也需要进行数据规范化。比如逻辑回归、svm和神经网络算法。

5:最小-最大规范化(Min-max规范化)

Min-max规范化方法是将原始数据变换到[0,1]的空间中,用公式表示:
新数值=(原数值-极小值)/(极大值-极小值)
from sklearn import preprocessing
min_max_scaler = preprocessing.MinMaxScaler()
min_max_x = min_max_scaler.fit_transform(x)

6.Z-Score规范化

新数值=(原数值-均值)/方差
用相同的标准来比较不同标准的两个值,算法简单,不受数据量级影响,结果易于比较。
不足:需要数据整体的平均值和方差,而且结果没有实际意义。只是用于比较。
scaled_x = preprocessing.scale(x)
or
ss = preprocessing.StandardScaler()
scaled_x2 = ss.fit_transform(x)

7.按小数定标规范化

比如属性A取值范围[-999,88],那么最大绝对值是999.
新数值=原数值/1000.那么A的取值范围被规范化为-0.999到0.088
j = np.ceil(np.log10(np.max(abs(x))))
decimal_x = x / (10 ** j)

四、数据挖掘

1.数据挖掘简介

数据挖掘的一个英文解释叫 Knowledge Discovery in Database,简称 KDD,也就是数据库中的知识发现。

2.数据挖掘: 6 步走

1.商业理解:第一步我们要从商业的角度理解项目需求,在这个基础上,再对数据挖掘的目标进行定义。
2.数据理解:尝试收集部分数据,然后对数据进行探索,包括数据描述、数据质量验证等。这有助于你对收集的数据有个初步的认知。
3.数据准备:开始收集数据,并对数据进行清洗、数据集成等操作,完成数据挖掘前的准备工作。
4.模型建立:选择和应用各种数据挖掘模型,并进行优化,以便得到更好的分类结果。
5.模型评估:对模型进行评价,并检查构建模型的每个步骤,确认模型是否实现了预定的商业目标。
6.上线发布:数据挖掘获得的知识需要转化成用户可以使用的方式,呈现的形式可以是一份报告;也可以是实现一个比较复杂的、可重复的数据挖掘过程;数据挖掘结果如果是日常运营的一部分,那么后续的监控和维护就会变得重要。

3.数据挖掘模型建立

在数据挖掘中,有几个非常重要的任务,就是分类、聚类、预测、连接分析、关联分析。

  1. 分类
    就是通过训练集得到一个分类模型,然后用这个模型可以对其他数据进行分类。
    分类算法:C4.5、朴素贝叶斯、SVM、KNN、CART、Adaboost
  2. 聚类
    人以群分,物以类聚。聚类就是将数据自动聚类成几个类别,聚到一起的相似度大,不在一起的差异性大。我们往往利用聚类来做数据划分。
    聚类算法:K-Means、EM
  3. 预测
    顾名思义,就是通过当前和历史数据来预测未来趋势,它可以更好地帮助我们识别机遇和风险。
  4. 关联分析
    就是发现数据中的关联规则,它被广泛应用在购物篮分析,或事务数据分析中。
    关联分析:Apriori
    5.连接分析
    PageRank

    4.训练街和测试集概念

    一般来说数据可以划分为训练集和测试集。
    训练集是用来给机器做训练的,通常是人们整理好训练数据,以及这些数据对应的分类标识。通过训练,机器就产生了自我分类的模型,然后机器就可以拿着这个分类模型,对测试集中的数据进行分类预测。
    同样如果测试集中,人们已经给出了测试结果,我们就可以用测试结果来做验证,从而了解分类器在测试环境下的表现。

    五、数据可视化

    1.数据可视化的意义

    1.在项目初期,我们需要对数据进行探索,快速的了解数据。采用数据可视化技术,这样数据不仅一目了然,更容易被解读。
    2.数据分析得到结果之后,我们还需要用到可视化技术,把最终的结果呈现出来。

    2.如何进行数据可视化呢?

    1:使用 Python。在 Python 对数据进行清洗、挖掘的过程中,我们可以使用 Matplotlib、Seaborn 等第三方库进行呈现。
    2:使用第三方工具。如果你已经生成了 csv 格式文件,想要采用所见即所得的方式进行呈现,可以采用微图、DataV、Data GIF Maker 等第三方工具,它们可以很方便地对数据进行处理,还可以帮你制作呈现的效果。

    3.可视化视图有哪些

    可视化视图分4类:
    1.比较:比较数据间各类别的关系,或他们随时间变化的趋势,比如折线图。
    2.联系:查看两个或多个变量之间的关系,比如散点图。
    3.构成:每个部分占整体的百分比,或随时间的百分比变化,比如饼图。
    4.分布:关注单个变量或单个变量的分布情况,比如直方图。

    4.基本概念介绍

    4.1:单变量:指的是一次只关注一个变量,比如我们只关注“身高”这个变量。
    4.2:多变量:在一张图上查看多个变量的关系,比如身高、年龄,可以理解同一个人的两个参数。从而分析这两个变量之间是否存在着某种联系。
    4.3:二元变量分布:如果我们想看两个变量之间的关系,就需要用到二元变量分布。二元变量分布有很多种呈现方式:散点图就是一种二元变量分布。
    4.4:成对关系:如果想要探索数据集中的多个成对双变量的分布,可以直接采用sns.pariplot()函数。它会同时展示出dataframe中每对变量的关系,另外在对角线上,能看到每个变量自身作为单变量的分布情况。可以很快帮我们理解变量对之间的关系。

    5.可视化视图介绍

    1.散点图
    散点图的英文scatter plot,它将两个变量的值显示在二维坐标中,非常适合展示两个变量之间的关系。除了二维散点图,还有三维散点图。
    2.折线图
    折线图可以用来表示数据随时间变化的趋势
    3.直方图
    直方图可以看到变量的数值分布
    4.条形图
    条形图可以查看类别的特征,长度表示类别的频数,宽度表示类别
    5.箱线图
    箱线图又称盒式图,由五个数值点组成:最大值max、最小值min、中位数median、上下四分位数(Q3,Q1)。它可以帮我们分析出数据的差异性、离散程度和异常值。
    6.饼图
    饼图是常用统计学模块,可以显示每个部分大小与总和之间的比例。
    7.热力图
    热力图,英文名叫heat map,是一种矩阵表示方法,其中矩阵中的元素值用颜色来代表,不同的颜色代表不同大小的值。通过颜色能直观地知道某个位置数值大小。
    另外,也可以将这个位置上的颜色与数据集中的其他位置颜色进行比较。
    8.蜘蛛图
    蜘蛛图是一种显示一对多关系的方法,在蜘蛛图中,一个变量相对于另一个变量的显著性是清晰可见的。

    注意:

    1.# 解决seaborn数据集导入报错的问题
    import ssl
    ssl._create_default_https_context = ssl._create_unverified_context

    六、用户画像

    1.用户画像概念

    举个例子:用户从哪里来,统一标识用户ID,方便对用户后续行为进行跟踪。
    用户是谁,对用户进行标签化,方便对用户行为进行理解;
    用户到哪里去?将用户画像与业务相关联提升转化率,降低用户的流失率。

    2.用户画像三步走

    1.统一化:统一用户的唯一标识
    设计用户唯一标识,可以更好的跟踪和分析一个用户的特征。
    唯一标识可以从:用户名、注册手机号、邮箱、设备号等唯一性字段选择
    2.标签化:给用户打标签,即用户画像
    ’用户消费行为分析‘,4个维度来进行标签划分。
    用户标签:性别、年龄、地域、收入、学历、职业等用户基础属性
    消费标签:消费习惯、购买意向、是否对促销敏感,统计分析用户的消费习惯
    行为标签:时间段、频次、时长、访问路径,分析用户行为,来得到他们使用app的习惯
    内容分析:对用户平时浏览的内容,停留时长、浏览次数多的内容进行分析,分析用户对哪些内容感兴趣,比如金融、娱乐、教育、体育、时尚、科技等。
    总结:用户画像是现实世界用户的数学建模。
    3.业务化 将用户画像,指导业务关联
    有了用户画像,可以带来什么业务价值呢?获客、粘客、留客
    1.获客:如何进行拉新,通过更精准的营销获取客户;
    2.个性化推荐,搜索排序、场景运营;
    3.流失率预测,分析关键节点降低流失率;

    3.步骤总结

    1.数据层
    用户属性、投诉次数、产品购买次数、渠道使用频率、优惠券使用、访问时长、支付渠道使用、浏览内容频次、浏览内容时长
    2.算法层
    用户兴趣、用户活跃度、产品购买偏好、用户关联关系、用户满意度、渠道使用偏好、支付使用偏好、优惠券偏好
    3.业务层
    获客预测、个性化推荐、GMV(Gross Merchandise Volume成交总额)趋势预测、用户流失概率
  • 1
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值