数据分析

最新推荐文章于 2024-05-14 15:57:15 发布

不二周同学

最新推荐文章于 2024-05-14 15:57:15 发布

阅读量3.4k

点赞数 1

分类专栏：数据分析

本文链接：https://blog.csdn.net/weixin_37292229/article/details/90708379

版权

数据分析专栏收录该内容

7 篇文章 2 订阅

订阅专栏

5:最小-最大规范化(Min-max规范化)

一、数据分析

1.数据分析应用场景

1.通过数据分析，可以更好地了解用户画像，为企业做留存率、流失率指标分析，进而精细化产品运营；
2.可以预测比特币的走势；
3.信用卡反欺诈、自动屏蔽垃圾邮件（能够通过数据判断是否是信用卡诈骗、垃圾邮件）
4.通过数据分析可以告诉政府该如何智慧地管理交通，做城市规划
5.通过消费数据分析，告诉企业什么时间生成什么产品，以最大化满足用户的需求
6.通过生活大数据，可以告诉企业该如何选址等
2.对数据的理解
互联网上半场是粗狂运营，因为有流量红利就不要考虑细节。
互联网下半场，精细化运营是长久的主题。有数据分析，才能让用户有更好的体验。
我们要获得更多的用户（通过用户，发现潜在用户。），激发用户的购买欲望（关联分析，这类用户还需要什么，发现用户的潜在需求），留住用户。
我们做的不是刚需，是发现用户的潜在需求
数据分析可以帮助我们理解和使用数据
为什么要使用大数据呢？
因为从大量的数据我们可以获得规律，如果数据量小，会因为异常值导致我们错误的判断。
在获客上：我们可以找到优势的宣传渠道，通过个性化有针对性的宣传手段吸引潜在需求用户，并刺激其转化
在粘客上：如何提升用户的单次消费水平和消费频次，（购买后的个性化推荐、针对优质用户进行优质高价商品推荐）以及重复购买，通过红包、优惠方式激励对优惠敏感的人群，刺激其购买欲望，提升购买频次。
在留客上：预测用户是否可能从平台上流失。
在营销领域，关于用户留存有一个观点，如果将顾客流失率降低5％，公司利润将提升25%-85%。
用户流失可能包括多种情况：用户体验、竞争对手、需求变化等

2.数据分析可以分成三个重要的组成部分：

1.数据采集。
因为任何分析都要有数据源，我们通过数据采集获得数据源。
工具采集（八爪鱼）、开源数据源、python爬虫抓取（Scrapy、Selenium、lxml、phantomjs）
2.数据挖掘。
进行数据分析，就是要找到其中的规律，来指导我们的业务。因此数据挖掘的核心是挖掘数据的商业价值，也就是我们所谈的商业智能 BI。
3.数据可视化。
数据可视化可以让我们直观地了解到数据分析的结果。

3.如何学习

1.记录自己对知识点的理解；
2.用工具来表达对知识点的掌握，并用自己的语言记录这些笔记；
3.做更多的联系巩固自己的认知，熟悉对工具的使用；

4.数据分析基本概念

利用数据预测用户购物行为属于商业智能，积累顾客的消费行为习惯会存储在数据仓库中，
通过对个体进行消费行为分析总结出来的规律属于数据挖掘。
1.商业智能
商业智能的英文是 Business Intelligence，缩写是 BI。商业智能可以预测用户的行为
2.数据仓库
数据仓库的英文是 Data Warehouse，缩写是 DW。数据仓库将原有的多个数据来源中的数据进行汇总、整理而得。数据进入数据仓库前，必须消除数据中的不一致性，方便后续进行数据分析和挖掘。
3.数据挖掘
数据挖掘的英文是 Data Mining，缩写是 DM。
类重要的数据是元数据，那么它和数据元有什么区别呢？
4.元数据和数据元
元数据（MetaData）：描述其它数据的数据，也称为“中介数据”。
数据元（Data Element）：最小数据单元。
举个例子，比如一本图书的信息包括了书名、作者、出版社、ISBN、出版时间、页数和定价等多个属性的信息，我们就可以把这些属性定义成一套图书的元数据。
在图书这个元数据中，书名、作者、出版社就是数据元。

5.数据预处理

数据预处理包括：数据清洗、数据集成、数据变换
1.数据清洗
数据清洗是为了去除重复数据，去噪声（即干扰数据）以及填充缺失值；
2.数据集成
将多个数据源中的数据存放在一个统一的数据存储中；
3.数据变换
将数据转换成适合数据挖掘的形式

二、数据采集

1.数据采集框架：

Requests：网络请求库
Selenium：浏览器自动化测试框架，模拟用户操作浏览器，对元素定位获取数据；
lxml：网页解析利器，支持HTML、XML、XPath解析，而且解析效率很高；
XPath：XML路径语言（XML Path Language），它是一种用来确定XML文档中某部分位置的语言。
Scrapy：爬虫框架，用于抓取web站点并从页面中提取结构化的数据。可以用于数据挖掘、监测和自动化测试。
PhantomJS:基于Webkit的无头浏览器，无头就是没有UI界面的意思。同时PhantomJS提供了JavaScript API接口，可以直接与Webkit内容交互。通过它，你可以完成无界面的自动化测试、网页截屏。通过网页截屏，就可以帮水军做结案报告。通过结案报告，就可以看到刷量的直观数据结果。

2.Requests访问页面

我们可以使用Requests访问页面，得到服务器返回的数据，这里包括HTML页面以及JSON数据。
针对JSON数据，可以使用JSON进行解析。
针对HTML页面，可以使用XPath进行元素定位，提取数据；
有时候我们直接用requests获取html的时候，发现想要的xpath并不存在，这是因为html还没有加载完。所以我们需要一个工具，来进行网页加载的模拟，直到完成加载后再获取完成的html。所以，使用selenium库。

三、数据变换

1.数据变换在数据分析中的角色

数据挖掘前，我们要让数据满足一定的规律，达到规范性的要求，方便进行数据挖掘。这就是数据变换的作用。
数据挖掘之前，我们要对数据进行准备。在数据变换前，我们需要对
1.对字段进行筛选（选择有效字段，去除无效字段）
2.对数据进行探索和相关性分析（探索有价值的数据，这些数据可以做什么）
3.选择算法模型
4.针对算法模型对数据的需求进行数据变换（这个模型对数据有什么要求）

2.数据规范化

数据规范化，使属性数据按比例进行缩放，这样将原来的数值映射到一个新的特定区域中。
常用的方法有：最小-最大规范化、Z-Score规范化、按小数定标规范化。

3.数据规范化、归一化、标准化区别

数据规范化是更大的概念，它指的是将不同渠道的数据，按照同一种尺度进行度量，这样一让数据间具有可比较性，二方便后续的计算。
数据归一化和数据标准化都是数据规范化的方式。
数据归一化：让数据在[0,1]或[-1,1]的区间范围内。
数据标准化让规范化的数据呈现正太分布的情况。

4.数据规范化的使用场景是什么呢？

1.距离相关的运算，比如在k-means、knn以及聚类算法中，我们有对距离的定义，所以在做这些算法前，需要对数据进行规范化。
2.有些算法用到了梯度下降作为优化器，这是为了提高迭代收敛的效率，也就是提升找到目标函数最优解的效率。我们也需要进行数据规范化。比如逻辑回归、svm和神经网络算法。

5:最小-最大规范化(Min-max规范化)

Min-max规范化方法是将原始数据变换到[0,1]的空间中，用公式表示：
新数值=(原数值-极小值)/(极大值-极小值)
from sklearn import preprocessing
min_max_scaler = preprocessing.MinMaxScaler()
min_max_x = min_max_scaler.fit_transform(x)

6.Z-Score规范化

新数值=(原数值-均值)/方差
用相同的标准来比较不同标准的两个值，算法简单，不受数据量级影响，结果易于比较。
不足：需要数据整体的平均值和方差，而且结果没有实际意义。只是用于比较。
scaled_x = preprocessing.scale(x)
or
ss = preprocessing.StandardScaler()
scaled_x2 = ss.fit_transform(x)

7.按小数定标规范化

比如属性A取值范围[-999,88],那么最大绝对值是999.
新数值=原数值/1000.那么A的取值范围被规范化为-0.999到0.088
j = np.ceil(np.log10(np.max(abs(x))))
decimal_x = x / (10 ** j)

四、数据挖掘

1.数据挖掘简介

数据挖掘的一个英文解释叫 Knowledge Discovery in Database，简称 KDD，也就是数据库中的知识发现。

2.数据挖掘： 6 步走

1.商业理解：第一步我们要从商业的角度理解项目需求，在这个基础上，再对数据挖掘的目标进行定义。
2.数据理解：尝试收集部分数据，然后对数据进行探索，包括数据描述、数据质量验证等。这有助于你对收集的数据有个初步的认知。
3.数据准备：开始收集数据，并对数据进行清洗、数据集成等操作，完成数据挖掘前的准备工作。
4.模型建立：选择和应用各种数据挖掘模型，并进行优化，以便得到更好的分类结果。
5.模型评估：对模型进行评价，并检查构建模型的每个步骤，确认模型是否实现了预定的商业目标。
6.上线发布：数据挖掘获得的知识需要转化成用户可以使用的方式，呈现的形式可以是一份报告；也可以是实现一个比较复杂的、可重复的数据挖掘过程；数据挖掘结果如果是日常运营的一部分，那么后续的监控和维护就会变得重要。

3.数据挖掘模型建立

在数据挖掘中，有几个非常重要的任务，就是分类、聚类、预测、连接分析、关联分析。

分类
就是通过训练集得到一个分类模型，然后用这个模型可以对其他数据进行分类。
分类算法：C4.5、朴素贝叶斯、SVM、KNN、CART、Adaboost
聚类
人以群分，物以类聚。聚类就是将数据自动聚类成几个类别，聚到一起的相似度大，不在一起的差异性大。我们往往利用聚类来做数据划分。
聚类算法：K-Means、EM
预测
顾名思义，就是通过当前和历史数据来预测未来趋势，它可以更好地帮助我们识别机遇和风险。
关联分析
就是发现数据中的关联规则，它被广泛应用在购物篮分析，或事务数据分析中。
关联分析：Apriori
5.连接分析
PageRank
4.训练街和测试集概念
一般来说数据可以划分为训练集和测试集。
训练集是用来给机器做训练的，通常是人们整理好训练数据，以及这些数据对应的分类标识。通过训练，机器就产生了自我分类的模型，然后机器就可以拿着这个分类模型，对测试集中的数据进行分类预测。
同样如果测试集中，人们已经给出了测试结果，我们就可以用测试结果来做验证，从而了解分类器在测试环境下的表现。
五、数据可视化

1.数据可视化的意义
1.在项目初期，我们需要对数据进行探索，快速的了解数据。采用数据可视化技术，这样数据不仅一目了然，更容易被解读。
2.数据分析得到结果之后，我们还需要用到可视化技术，把最终的结果呈现出来。
2.如何进行数据可视化呢？
1：使用 Python。在 Python 对数据进行清洗、挖掘的过程中，我们可以使用 Matplotlib、Seaborn 等第三方库进行呈现。
2：使用第三方工具。如果你已经生成了 csv 格式文件，想要采用所见即所得的方式进行呈现，可以采用微图、DataV、Data GIF Maker 等第三方工具，它们可以很方便地对数据进行处理，还可以帮你制作呈现的效果。
3.可视化视图有哪些
可视化视图分4类：
1.比较：比较数据间各类别的关系，或他们随时间变化的趋势，比如折线图。
2.联系：查看两个或多个变量之间的关系，比如散点图。
3.构成：每个部分占整体的百分比，或随时间的百分比变化，比如饼图。
4.分布：关注单个变量或单个变量的分布情况，比如直方图。
4.基本概念介绍
4.1：单变量：指的是一次只关注一个变量，比如我们只关注“身高”这个变量。
4.2：多变量：在一张图上查看多个变量的关系，比如身高、年龄，可以理解同一个人的两个参数。从而分析这两个变量之间是否存在着某种联系。
4.3：二元变量分布：如果我们想看两个变量之间的关系，就需要用到二元变量分布。二元变量分布有很多种呈现方式：散点图就是一种二元变量分布。
4.4：成对关系：如果想要探索数据集中的多个成对双变量的分布，可以直接采用sns.pariplot()函数。它会同时展示出dataframe中每对变量的关系，另外在对角线上，能看到每个变量自身作为单变量的分布情况。可以很快帮我们理解变量对之间的关系。
5.可视化视图介绍
1.散点图
散点图的英文scatter plot，它将两个变量的值显示在二维坐标中，非常适合展示两个变量之间的关系。除了二维散点图，还有三维散点图。
2.折线图
折线图可以用来表示数据随时间变化的趋势
3.直方图
直方图可以看到变量的数值分布
4.条形图
条形图可以查看类别的特征，长度表示类别的频数，宽度表示类别
5.箱线图
箱线图又称盒式图，由五个数值点组成：最大值max、最小值min、中位数median、上下四分位数(Q3,Q1)。它可以帮我们分析出数据的差异性、离散程度和异常值。
6.饼图
饼图是常用统计学模块，可以显示每个部分大小与总和之间的比例。
7.热力图
热力图，英文名叫heat map，是一种矩阵表示方法，其中矩阵中的元素值用颜色来代表，不同的颜色代表不同大小的值。通过颜色能直观地知道某个位置数值大小。
另外，也可以将这个位置上的颜色与数据集中的其他位置颜色进行比较。
8.蜘蛛图
蜘蛛图是一种显示一对多关系的方法，在蜘蛛图中，一个变量相对于另一个变量的显著性是清晰可见的。
注意：
1.# 解决seaborn数据集导入报错的问题
import ssl
ssl._create_default_https_context = ssl._create_unverified_context
六、用户画像

1.用户画像概念
举个例子：用户从哪里来，统一标识用户ID,方便对用户后续行为进行跟踪。
用户是谁，对用户进行标签化，方便对用户行为进行理解；
用户到哪里去？将用户画像与业务相关联提升转化率，降低用户的流失率。
2.用户画像三步走
1.统一化：统一用户的唯一标识
设计用户唯一标识，可以更好的跟踪和分析一个用户的特征。
唯一标识可以从：用户名、注册手机号、邮箱、设备号等唯一性字段选择
2.标签化：给用户打标签，即用户画像
’用户消费行为分析‘，4个维度来进行标签划分。
用户标签：性别、年龄、地域、收入、学历、职业等用户基础属性
消费标签：消费习惯、购买意向、是否对促销敏感，统计分析用户的消费习惯
行为标签：时间段、频次、时长、访问路径，分析用户行为，来得到他们使用app的习惯
内容分析：对用户平时浏览的内容，停留时长、浏览次数多的内容进行分析，分析用户对哪些内容感兴趣，比如金融、娱乐、教育、体育、时尚、科技等。
总结：用户画像是现实世界用户的数学建模。
3.业务化将用户画像，指导业务关联
有了用户画像，可以带来什么业务价值呢？获客、粘客、留客
1.获客：如何进行拉新，通过更精准的营销获取客户；
2.个性化推荐，搜索排序、场景运营；
3.流失率预测，分析关键节点降低流失率；
3.步骤总结
1.数据层
用户属性、投诉次数、产品购买次数、渠道使用频率、优惠券使用、访问时长、支付渠道使用、浏览内容频次、浏览内容时长
2.算法层
用户兴趣、用户活跃度、产品购买偏好、用户关联关系、用户满意度、渠道使用偏好、支付使用偏好、优惠券偏好
3.业务层
获客预测、个性化推荐、GMV(Gross Merchandise Volume成交总额)趋势预测、用户流失概率

不二周同学

关注

1
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
数据分析

目录一、数据分析1.数据分析应用场景2.数据分析可以分成三个重要的组成部分：3.如何学习4.数据分析基本概念5.数据预处理二、数据采集1.数据采集框架：2.Requests访问页面三、数据变换1.数据变换在数据分析中的角色2.数据规范化3.数据规范化、归一化、标准化区别4.数据规范化的使用场景是什么呢？5:最小-最大规范化(Min-max规范化)6.Z-Score规范化7.按小数定标规范化四、数据挖掘1.数据挖掘简介2...
复制链接

扫一扫

专栏目录