数据分析学习【第一篇】

本文链接：https://blog.csdn.net/Th7me/article/details/124802359

前言

数据分析的数学基础在20世纪早期就已确立，但直到计算机的出现才使得实际操作成为可能，并使得数据分析得以推广，现如今数据分析在互联网行业中已经成为必要的知识储备，本文将介绍数据分析的基础、思想和常见方法，为未来进一步的学习做铺垫。

一、数据分析是什么

在陶皖主编的《云计算与大数据》中我们可得知数据分析的大致：

数据分析是指用适当的统计分析方法对收集来的大量数据进行分析，将它们加以汇总和理解并消化，以求最大化地开发数据的功能，发挥数据的作用。数据分析是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。

由此，我们可以把数据处理分为观测（获得数据和分析数据），实验（通过数据来提出假设再验证假设得到正确结论），应用（将数据分析得到的实验结论来应用到实际的生产上从而提高生产效率）。

二、数据分析的步骤

1.采集数据

（1）解析系统日志

我们日常使用的程序、网页和系统无时无刻不在产生系统日志，这些日志记录下了我们使用的所有痕迹，通过对日志进行解析是获取数据的一种重要方式。

{"用户Id"："100001"
,"访问时间":"23:23:01"}

例如我们可以通过服务器的系统日志记录用户的访问信息。

（2）埋点获取新数据

埋点是基于日志的操作，埋点可以使日志记录些新的你所需要的信息。如上图，我们还想记录下用户的来访地址，我们可以通过埋点记录下用户的IP地址从而推出用户的来访地址。埋点是我们获取数据的主要方式。

{"用户Id"："100001"
,"访问时间":"23:23:01"
,"IP地址":"192.168.0.1"}

（3）通过传感器采集数据

我们从各种自然事件中获取的真实数据例如温度都是由传感器进行采集，还有像运动手环也是通过传感器来收集你的血氧和心跳频率数据。

（4）爬虫

爬虫技术的本质就是解析网站。爬虫就是一个程序，这个程序的任务就是从给出的一组种子URL开始爬取网页，爬虫程序开始工作后，种子URL会先加入到待爬取网页的队列中，爬虫程序从队列按照先进先出的原则获取网页URL，爬虫程序开始爬取网页，爬虫会下载整个网页内容，然后提取网页内容，分析出网页内容包含的URL，并把新的URL加入到队列。

通过Python语言实现的爬虫基础程序如下：

# 导入队列模块
import queue as q
# 定义种子URL
seed_url = ["url1","url2"]
# 定义URL队列
url_queue = q.Queue()
# 定义添加种子到队列的函数
def put_seed():
for s in seed_url:
url_queue.put(s)
# 定义网址添加到队列的函数
def put_url(url):
url_queue.put(url)
# 定义判断队列是否不为空函数
def is_queue_noempty():
if url_queue.empty():
    return False
return True

# 定义从队列获取URL的函数
def get_url():
return url_queue.get()
# 定义网页下载函数
def download_url(url):
text = "";
# 此处为下载代码
pass
return text
# 定义网页解析函数
def analysis(text):
# 此处为网页内容解析代码
pass
# 网页内容处理与存储代码
process()
# 添加新URL到队列
pass
# 定义网页内容处理与存储函数
def process(objec=None):
# 此处为网页内容处理与存储代码
pass

if __name__ == "__main__":
    print("------启动爬虫------")
# 种子URL加入队列
    put_seed()
# 循环爬取队列的URL
    while is_queue_noempty():
# 从队列获取URL
    url = get_url()
# 下载URL
    text = download_url(url)
# 解析网页内容
    analysis(text)
# 队列为空，爬虫停止
print("------爬虫停止------")

（5） API

API的全称是Application Programming Interface，即应用程序接口。API可以按照我们提供的规则和条件给我们提供相应的数据，现在各个互联网大厂都会提供自己的API平台给各个企业来牟利。

2.存储数据

一般采集出来的数据都是放在数据库中，常见的数据库种类有hiveSQL，MySQL，Microsoft SQL Server，PostgreSQL，Presto，impala。通过使用这些高效安全的数据库，我们就可以得到统一干净的数据。

3.展示数据

报表、图表和仪表盘，图表更加直观，可视化高效传达消息

（1）列表法

将数据按一定规律用列表方式表达出来，是记录和处理最常用的方法。表格的设计要求对应关系清楚，简单明了，有利于发现相关量之间的相关关系；此外还要求在标题栏中注明各个量的名称、符号、数量级和单位等：根据需要还可以列出除原始数据以外的计算栏目和统计栏目等。

（2）图表法

作图法可以最醒目地表达各个物理量间的变化关系。从图线上可以简便求出实验需要的某些结果，还可以把某些复杂的函数关系，通过一定的变换用图形表示出来。

图表和图形的生成方式主要有两种：手动制表和用程序自动生成，其中用程序制表是通过相应的软件，例如SPSS、Excel、MATLAB等。将调查的数据输入程序中，通过对这些软件进行操作，得出最后结果，结果可以用图表或者图形的方式表现出来。图形和图表可以直接反映出调研结果，这样大大节省了设计师的时间，帮助设计者们更好地分析和预测市场所需要的产品，为进一步的设计做铺垫。同时这些分析形式也运用在产品销售统计中，这样可以直观地给出最近的产品销售情况，并可以及时地分析和预测未来的市场销售情况等。所以数据分析法在工业设计中运用非常广泛，而且是极为重要的。

常见的图表数学分析方法有：直方图、相关系数、协方差、各种概率分布、抽样与动态模拟、总体均值判断，均值推断、线性、非线性回归、多元回归分析、移动平均等内容。通过图表，相较于列表法能做到可视化高效传达信息。