目录
数据挖掘基础环境安装与使用
库的安装
学习目标
搭建好数据挖掘基础阶段环境,包括Matplotlib,Numpy,Pandas,Ta-Lib(技术指标库),tables(hdfs),jupyter(数据分析与展示平台)等
jupyter notebook 的使用
介绍
- web的ipython;
- 名字:ju-Julia , py-python , ter-R;Jupiter–木星,宙斯
- 可以用来编程、写文档、记笔记、展示
- 保存为.ipynb后缀格式
优势
- 画图优势
- 数据展示优势
快速入手
-
界面启动、创建文件
在终端输入jupyter notebook/ipython
notebook -
cell操作
cell:一对in out会话被视作为一个代码单元,称为cell
编辑模式:enter进入/鼠标点击
命令模式:esc进入/鼠标在本单元格外点一下 -
快捷键:
两种模式通用:
shift + enter:执行本单元代码,并跳至下一单元
CTRL+enter:执行本单元代码,留在本单元
cell行号前的*,表示代码正在运行命令模式:
快捷键 功能 Y 切换到code模式 M 切换到markdown模式 A 在当前cell上面添加cell B 在当前cell下面添加cell 双击D 删除当前cell Z 回退 L 为当前cell加上行号<!– CTRL+shift+p 对话框输入命令直接运行 CTRL+home 快速跳转首个cell CTRL+end 快速跳转最后一个cell 编辑模式:
快捷键 功能 CTRL+鼠标点击 多光标操作 CTRL+Z 回退 CTRL+Z 重做 变量、方法后+tab 补全代码 CTRL+/ 添加/取消注释 在最后语句加分号 屏蔽自动输出信息
markdown演示
- 快捷键
快捷键 | 功能 |
---|---|
撤销 | Ctrl/Command + Z |
重做 | Ctrl/Command + Y |
加粗 | Ctrl/Command + B |
斜体 | Ctrl/Command + I |
标题 | Ctrl/Command + Shift + H |
无序列表 | Ctrl/Command + Shift + U |
有序列表 | Ctrl/Command + Shift + O |
检查列表 | Ctrl/Command + Shift + C |
插入链接 | Ctrl/Command + Shift + L |
插入图片 | Ctrl/Command + Shift + G |
查找 | Command + F |
替换 | Command + G |
- 基础语法参考:
目录:@[TOC]
1级标题:# 1级标题
2级标题:## 2级标题
3级标题:### 3级标题
4级标题:#### 4级标题
5级标题:##### 5级标题
6级标题:###### 6级标题
强调文本:* * ;_ _
加粗文本:** **;__ __
标记文本:== ==
删除文本:~~ ~~
引用文本:>
下标:~
上标:^
Matplotlib
介绍
- 什么是matplotlib
mat-matrix 矩阵,二维数据,二维图表
plot-画图
lib-library
matlab-矩阵实验室,mat-matrix,lab-实验室 - 为什么用该库
数据可视化–帮助理解数据,方便选择更适合的分析方法
js库–D3, echarts(用来给他人展示) - 该库构成
a. 容器层
画板层(Canvas):位于最底层,用户一般接触不到
画布层(Figure):建立在画板层之上
绘图区(Axes):建立在画布层之上,包括坐标系、图例等辅助显示层、图像层
b. 辅助显示层
c. 图像层
基础绘图
matplotlib.pyplot模块
类似matlab的画图函数,作用于当前图形的当前坐标系
import matplotlib.pyplot as plt
中文显示问题
- 永久一劳永逸设置
- 安装字体;
到中华字体网http://www.font5.com.cn/或本地windows/fonts找到simhei.ttf文件,复制粘贴到…Python36/Lib/site-packages/matplotlib/mpl-data/fonts/ttf(省略号指具体本地地址)下。 - 删除matplotlib缓存文件;
找到本地/用户/.matplotlib下的缓存文件删除
- 配置文件
在…Python36/Lib/site-packages/matplotlib/mpl-data找到配置文件matplotlibrc;
修改信息如下:
font.family : sans-serif
font.sans-serif : SimHei, Bitstream Vera Sans, sans-serif …
即将SimHei添加到字库族
axes.unicode_minus,将True改为False,解决负号’-'显示问题
- 安装字体;
- 全局设置
# 设置matplotlib正常显示中文和负号
matplotlib.rcParams['font.sans-serif']=['SimHei'] # 用黑体显示中文
matplotlib.rcParams['axes.unicode_minus']=False # 正常显示负号
- 局部设置
plt.xlabel("横轴/单位",fontproperties="STLiti")
plt.ylabel("纵轴/单位",fontproperties="STXingkai")
plt.title("标题",fontproperties="STXinwei")
常用语句
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
import seaborn as sns
# plot:面向过程的画图方法
plt.figure(figsize=(20,8),dpi=80) #创建画布;figsize指定图像长宽, dpi图像清晰度
plt.plot([1,2,