数据分析介绍与环境安装

数据分析介绍

数据分析的基本概念

  • 用适当的统计分析方法对数据收集来的大量数据进行分析
  • 提取有用信息和形成结论
  • 对数据加以详细研究和概括总结的过程

数据分析的流程

  1. 明确目的
  2. 准备数据
  3. 数据解析
  4. 分析数据
  5. 获得结论
  6. 成果可视化

数据分析和数据挖掘的相似之处

  • 数据挖掘和数据分析都是对数据进行分析、处理等操作,从而得到有价值的知识

数据分析与数据挖掘的区别

  • 在应用工具上,数据分析更多的是借助现有的分析工具进行;而数据挖掘一般需要通过编程来实现。
  • 在行业知识方面,数据分析要求对所从事的行业有比较深的了解,更多的是将数据与业务紧密结合起来;而数据挖掘不需要有太多的行业知识,更专注与技术层面。

Jupyter使用

Jupyter介绍

  • Jupyter Notebooks 是一款开源的网络应用,我们可以将其用于创建和共享代码与文档。
  • 其提供了一个环境,你无需离开这个环境,就可以在其中编写你的代码、运行代码、查看输出、可视化数据并查看结果。因此,这是一款可执行端到端的数据科学工作流程的便捷工具,其中包括数据清理、统计建模、构建和训练机器学习模型、可视化数据等等。

Jupyter Notebooks特点

  • 基于web在线编辑器
  • 可交互式
  • .ipynb文件分享
  • 支持markdown

Jupyter官网

Jupyter安装

  • 首先安装好Python(建议3.6-3.7版本)
  • 安装命令:pip install Jupyter

Jupyter使用

  • 首先需要创建单独项目文件夹(建议名称不要有中文)
  • windows+R输入cmdcmder进入终端
  • 切换到该文件夹路径下
  • 打开命令输入:jupyter notebook
    在这里插入图片描述
    当第一次创建的时候会是这样
    在这里插入图片描述
    快捷键的使用
  • 运行:Ctrl+Enter
  • Esc —— 命令模式
  • Enter —— 编辑模式

进入命令模式后的一些常用方法

  • 字母A —— 在活跃单元之上插入一个新单元
  • 字母B —— 在活跃单元之下插入一个新单元
  • 连续按两次字母D —— 可以删除单元
  • 字母Z —— 撤销被删除的单元
  • 字母Y —— 会将当前活跃的单元变成一个代码单元
  • 按住shift + 上箭头或者下箭头可以选择多单元。在多选模式时,按住Shift + M可合并你的选择

进入命令模式或输入字母H
在这里插入图片描述
在这里插入图片描述在这里插入图片描述

查看源代码小技巧

在Jupyter中一个英文状态下的问号代表着使用查看对象的概要信息

在这里插入图片描述

在Jupyter中一个英文状态下的两个问号代表着使用查看源代码

在这里插入图片描述

文件操作

文件操作的介绍

在实际操作中,通过采集本地数据进行数据分析,那么就需要学会Python去对本地进行读取与写入等操作
比如:txt文件,Json文件,csv文件,excel文件等

Python操作txt文件
open( file, mode='r', buffering=-1, encoding=None, errors=None, newline=None, closefd=True, opener=None, )

  • file :为文件本身
  • mode : 操作文件模式----详情看源码
  • encoding : 指定文件编码
  • newline : 新的一行
with open('Students.txt',mode='r')as f:
    read = f.read()
    fier

Python操作json文件

Json是一种使用广泛的轻量级数据格式,Python标准中的json模块中提供了JSON数据的处理功能
由于JSON与Python中的字典格式非常像,所以Python中的json模块也相当于用来使json与字典转换。
但要注意的是,json中的数据必须使用双引号。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

Python操作csv文件

CSV即Comma Separate Values,有时也称为字符分隔值,因为分隔字符也可以不是逗号,其文件以纯文本
存储表格(数字和文本)。经常用来作为不同程序之间的数据交互格式。
import csv
with open('demo.csv', 'w', encoding='utf-8')as f:
    csw_writer = csv.writer(f)
    csw_writer.writerow(["A", "B", "C"])

Python操作excel文件
官网:https://openpyxl.readthedocs.io/en/stable/
安装:pip install openyxl

在Python中,有很多第三方模块用来操作excel,比如说:xlwt,xlrd,openpyxl等。
注意:openpyxl只支持2010版本以上的xlsx文件
from openpyxl import load_workbook
wb = load_workbook("demo03.xlsx")  # 打开工作簿
ws = wb.active  # 打开工作表
# 单元格的值
tuple(ws.rows)
for row in ws.rows:  # 循环出每一行
    for cell in row: # 循环每一个单元格
        print(cell.value)
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Pyecharts是一个基于Python的数据可视化库,它提供了丰富多样的图表类型和交互功能,可以帮助用户进行数据分析和展示。要使用Pyecharts进行数据可视化分析,你可以按照以下步骤操作: 1. 首先,你可以通过官方网站了解Pyecharts的介绍和基本用法。官网提供了详细的文档和示例代码,可以帮助你快速上手。 2. 安装Pyecharts库。你可以使用命令行工具pip,在终端中输入"pip install pyecharts"来进行安装。另外,在Pycharm等Python开发环境中,也可以通过相应的包管理工具进行安装。 3. 导入Pyecharts库并查询版本号。在代码中使用"import pyecharts"导入库,并使用"print(pyecharts.__version__)"命令来查询Pyecharts的版本号。 4. 使用Pyecharts进行数据可视化分析。根据你的需求选择合适的图表类型和配置项,进行数据的处理和展示。以极坐标系-堆叠柱状图(南丁格尔玫瑰图)为例,你可以使用如下代码进行实现: ``` from pyecharts import options as opts from pyecharts.charts import Polar # 此处省略读取数据的代码 c = ( Polar() .add_schema(angleaxis_opts=opts.AngleAxisOpts(data=x, type_="category")) .add("A", y1, type_="bar", stack="stack0") .add("B", y2, type_="bar", stack="stack0") .add("C", y3, type_="bar", stack="stack0") .set_global_opts(title_opts=opts.TitleOpts(title="极坐标系-堆叠柱状图(南丁格尔玫瑰图)")) .render("极坐标系-堆叠柱状图(南丁格尔玫瑰图).html") ) ``` 通过这段代码,你可以将数据按照极坐标系-堆叠柱状图的形式进行展示,并设置相关的标题和全局配置项。最后,使用.render()方法将结果保存为HTML文件。 总结来说,Pyecharts是一个方便易用的数据可视化库,它可以帮助你进行数据分析和展示。你可以根据具体的需求选择合适的图表类型和配置项,进行数据可视化分析。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值