目录
1.给图形增加标题、给坐标轴增加数值标签并设定间距、显示坐标轴的刻度
1.给图形增加标题、给坐标增加数值标签并设定间距、显示坐标轴的刻度
1.给图形增加标题、给坐标轴增加数值标签并设定间距、显示坐标轴地刻度
1.给图形增加标题、坐标轴增加数值标签并设定距离、显示坐标轴刻度
该部分是讲述的利用Stata进行绘图,该章中会讲到8个不同的图形绘制命令。
2.1直方图
直方图(histogram)又称直方图,是一种统计报告图,由一系列高度不等的纵向条纹或线段表示数据的分布情况。一般用横轴表示数据类型,纵轴表示分布情况。通过绘制直方图,可以较为直观地传递有关数据的变化信息,使数据使用者能够较好地直观的观察数据波动,使数据决策者能依据分析结果确定再什么地方需要集中力量改进工作。
数据(案例2.1)展示的是2009年我国29个省市的技工学校数量的局数据。试通过绘制直方图来直观的反应我国技工学校的建设情况。
histogram number , frequency
结果如图所示,纵轴代表的频率,横轴代表了技工学校的数量。我们可以直观的看出这个技工学校的数量越多那么出现的频率就越少(拥有很多技工学校的省市就越少)。拥有技工学校数量较少的省市则比较多。
案例延伸
1.给图形增加标题
histogram number,frequency title("案例2.1结果")
2.给坐标轴增加数值标签并设定间距
histogram number,frequency title("案例2.1结果") xlabel(0(25)300) ylabel(0(1)10)
3.显示坐标轴的刻度
histogram number,frequency title("案例2.1结果") xlabel(0(25)300) ylabel(0(1)10) ytick(0(0.5)10)
4.设定直方图的起始值以及直方条的宽度
使直方图的第一个直方条是从10开始,每一个直方条的宽度为25
histogram number,frequency title("案例2.1结果") xlabel(0(25)300) ylabel(0(1)10) ytick(0(0.5)10) start(10) width(25)
2.2散点图
作为对数据进行预处理的重要工具之一,散点图(scatter diagram)功能深受专家、学者们的喜爱。散点图的简要定义就是点在直角坐标系平面上的分布图。研究者对数据制作散点图的主要出发点是通过绘制改图来观察某变量随另一变量变化的大致趋势,据此可以探索数据之间的关联关系,甚至选择合适的函数对数据点进行拟合。
数据(案例2.2)为某高校新入学男生身高及体重情况,某课题组随机抽取了该校新儒学42命大一新生的身高及体重数据。
graph twoway scatter SG TZ
通过观察散点图,可以比较轻松的看出这些学生的身高及体重的组合情况。我们发现大部分学生的身高处于170~180之间,身高与体重之间不存在明显的相关关系,很多体重差别较大的学生身高几乎无差别,同时有很多体重相近的同学身高差别很大。
案例延伸
1.给图形增加标题、给坐标轴增加数值标签并设定间距、显示坐标轴的刻度
graph twoway scatte SG TZ ,title("案例2.2结果") xlabel(56(2)80) ylabel(150(5)190)
2.控制三点标志的形状
graph twoway scatte SG TZ ,title("案例2.2结果") xlabel(56(2)80) ylabel(150(5)190) msymbol(D)
形状与对应命令
缩写 | 描述 | 缩写 | 描述 | 缩写 | 描述 |
X | 大写字母X | S | 实心方形 | th | 空心小三角形 |
Th | 空心三角 | oh | 空心小圆圈 | dh | 空心小菱形 |
T | 实心三角 | p | 很小的点 | sh | 空心方形 |
3.控制三点标志的颜色
graph twoway scatte SG TZ ,title("案例2.2结果") xlabel(56(2)80) ylabel(150(5)190) msymbol(D) mcolor(yellow)
更多颜色选择请在命令窗口输入:
help colorstyle
2.3曲线标绘图
从形势看,曲线标绘图与散点图的区别就是一条线来代替散点标志,这样做可以更加清晰直观地看出数据走势,但却无法观察到每个散点的准确定位。从用途上看,曲线标绘图常用于时间序列分析的数据预处理,用来观察变量随时间变化趋势。此外,曲线表绘图可以同时反应多个变量随时间的变化情况,所以,曲线标绘图的应用范围还是非常广泛的。
数据(案例2.3)是过往赛季进球数据。变量分别是年份、求对总进球数、求对第一射手进球数。试通过曲线标绘图来分析研究该求对的进球情况变化趋势以及对内第一射手的依赖程度。
graph twoway line total first year
通过观察曲线图,可以比较轻松地看出本球队的进球状况。我们发现,该求对的进球状态虽然有所起伏但是变化却不大,但是对内第一射手的进球状态时在波动中上升,这可能是原来的射手逐渐成熟、成长起来,能力得到提升,也有可能是引进了更加优秀的球员所导致。从整体上来看,该球队并没有完全依赖第一射手进球,但是他的依赖度自2005年以来时有所上升的。
案例延伸
1.给图形增加标题、给坐标增加数值标签并设定间距、显示坐标轴的刻度
graph twoway line total first year,title("案例2.3") xlabel(1997(2)2012) ylabel(0(10)80) xtick(1997(1)2012)
2.改变变量默认标签
graph twoway line total first year,title("案例2.3") xlabel(1997(2)2012) ylabel(0(10)80) xtick(1997(1)2012) legend(label(1 "总进球数") label(2 "第一射手进球数"))
3.改变线条的样式
graph twoway line total first year,title("案例2.3") xlabel(1997(2)2012) ylabel(0(10)80) xtick(1997(1)2012) legend(label(1 "总进球数") label(2 "第一射手进球数")) clpattern(solid dash)
线条样式与命令缩写
线条样式 | 命令缩写 | 线条样式 | 命令缩写 | 线条样式 | 命令缩写 |
实线 | solid | 点划线 | dash_dot | 长划线 | longdash |
虚线 | dash | 短划线 | shortdash | 长划点线 | longdash_dot |
点线 | line | 短划点线 | shotdash_dot | 不可见的线 | blank |
2.4连线标绘图
在2.3节中我们提到曲线标绘图用一条线来代替散点标志,可以更加清晰直观地看出数据走势,但却无法观察到每个散点地准确定位。那么,有没有一种作图方式既可以满足观测数据走势地需要,又能实现每个散点地准确定位?l连线标绘图就解决了这一问题。
数据(案例2.4)时对某一王牌旅游景点进行游客量调查,调查得到地数据整理后如图所示。试通过绘制连线标绘图分析研究该景点地游客量随季节地变化情况。
graph twoway connected number month
通过连线标绘图我们可以看到很多信息,一方面可以清晰地看到该景点各个月份地游客人次地准确值,另一方面我们可以看到该景点游客人次地变化趋势。该景点5月到10月是旺季,10月人最多1月人最少。决策者可以根据这一规律为景点合理配置资源、指定差别价格等。
案例延伸
1.给图形增加标题、给坐标轴增加数值标签并设定间距、显示坐标轴地刻度
graph twoway connected number month ,title("案例2.4结果") xlabel(1(1)12) ylabel(1000(1000)7000) ytick(1000(500)7000)
2.改变线条地样式
graph twoway connected number month ,title("案例2.4结果") xlabel(1(1)12) ylabel(1000(1000)7000) ytick(1000(500)7000) clpattern(dash)
3.控制散点标志的形状
graph twoway connected number month ,title("案例2.4结果") xlabel(1(1)12) ylabel(1000(1000)7000) ytick(1000(500)7000) clpattern(dash) msymbol(D)
4.控制散点标志的颜色
graph twoway connected number month ,title("案例2.4结果") xlabel(1(1)12) ylabel(1000(1000)7000) ytick(1000(500)7000) clpattern(dash) msymbol(D) mcolor(green)
2.5箱图
箱图(Box-Plot)是一种用于显示一组数据分散情况的统计图,箱图很形象的分为中心、延伸以及部分状态的全部范围,提供了一种只用5个点对数数据集做简单的总结的方式,这5个点包括重点、Q1、Q3、分布状态的高位和地位。数据分析者通过绘制箱图不仅可以直观明了地识别数据中的异常值,判断数据得偏态、尾重以及比较几批数据地形状。
数据(案例2.5)是一家销售汽车地公司。该公司在组织架构上采取地是事业部制管理方式,把国家市场分为3个大区,从而督导各省市地分公司。该集团在全国各地省市地市场份额情况如图所示。试绘制箱图来研究分析其分布规律。变量分别为地区、市场份额、所属大区。
graph box SCFE
通过观察上图,我们可以看到数据分成了4部分,第一部分是从顶线到箱子地顶部,这部分数据在全体数据中排名前25%;第二部分是从箱子顶部到箱子中间地线,这部分数据值是在全体数据排名25%以下,50%以上;第3部分是从箱子中间地线到箱子底部,这部分数据值是在全体数据排名50%一下75%以上,第4部分是从箱子地底部到底线,这部分数据在全体数据中排名后25%,顶线与底线地间距在一定程度上表示了数据地离散程度,间距越大就越离散。就本例而言,我们可以看到该公司地市场份额地中位数在32%左右,市场份额最高的省市可以达到90%左右。
案例延伸
graph box SCFE,over(Center)
2.6饼图
在数据分析中,很多时候需要分析数据总体地各个组成部分地占比,我们可以通过各个部分与总额相除来计算,但数学比例地表示方法相对抽象,饼图能够直接以图形地方式显示各个组成部分地比例。更为重要地是,由于采用图形地方式,因此更加形象直观。
数据(案例2.6)是一家资产规模巨大地国内上市公司,公司采取多元化经营地成长型发展战略,经营范围包括餐饮、房地产、制造等,公司采取区域事业部制地结构组织,在东部、中部、西部都有自己地分部,较为独立的负责本部各产品地具体运营。该公司地具体营业数据在中。试通过绘制饼图地方式研究该公司各产业地占比情况。
graph pie CANYIN FANGCHAN ZHIZAO
从图中我们可以看出公司地主要业务,该企业地两个支柱产业是制造业和房地产,餐饮业占比较小。
案例延伸
1.对图形展示进行更加个性化地设置
graph pie CANYIN FANGCHAN ZHIZAO,pie(1 explode) pie(2 ,color(yellow)) plabel(1 percent,gap(20)) plabel(2 percent,gap(20))
2.按照分类变量分别画出饼图
graph pie CANYIN FANGCHAN ZHIZAO,pie(1 explode) pie(2 ,color(yellow)) plabel(1 percent,gap(20)) plabel(2 percent,gap(20)) by (region)
2.7条形图
他们为平均数、中位数、合计数或计数等多种概要统计提供了简单又多样化地展示。
数据(案例2.7)某地方商业银行设立4个营销团队,分别为A\B\C\D,其营业净收入以及团队人数地具体情况在其中。试着通过绘制条形图地方式来对比分析各团队工作业绩。
graph bar sum,over(team)
我们可以看到该地方商业银行地4个团体地总体工作业绩,其中D团队成绩最好,A最差,C其次,B再次。
案例延伸
1.给图形增加标题、坐标轴增加数值标签并设定距离、显示坐标轴刻度
graph bar sum,over(team) title("案例2.7结果") ylabel(1000(1000)7000) ytick(1000(500)7000)
2.利用条形图进行对比分析得到更多的信息
graph bar sum number,over(team) title("案例2.7结果") ylabel(1000(1000)7000) ytick(1000(500)7000)
2.8点图
点图地功能与作用是和前面提到地条形图类似地,都是用来直观的比较一个或多个变量地概要统计情况。
数据(案例2.8)是某医院再市内设有5个分院,分别是历下分院、历城分院、天桥分院、槐荫分院、高新分院,以及服务各区市民,其内部人员分布在数据中。通过绘制点图按分院分析该医院地员工组成状况
graph dot man wowan,over(name)
我们可以看到很多信息,第一,各个分院地女员工数量都比男员工数量多,第二高新分院不论男女员工人数都是最多地,第三历下分院不论是男员工还是女员工人数都是最少的。
案例延伸
1.给图形增加标题
graph dot man wowan ,over(name) title("案例2.8结果")
2.控制散点形状
graph dot man wowan ,over(name) title("案例2.8结果") marker(1,msymbol(D)) marker(2,msymbol(T))