自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(21)
  • 收藏
  • 关注

原创 前程无忧数据分析招聘信息分析

近期想找数据分析方面的工作,又苦于没有工作经验,在老司机的指导下,我尝试将招聘网站前程无忧上广州数据分析岗位的部分数据用爬虫获取并进行了简单的数据分析。一、数据获取不得不说,前程无忧几乎没有反爬虫机制,我写了一个很简陋的爬虫代码就爬了约900条数据下来。这次分析的目的是了解目前市场对数据分析人才的工作经验要求和学历要求分布是怎样的,以及不同工作经验和学历的薪资区别。爬取的数据主要有岗位名称,发布公...

2018-07-05 21:33:10 8569 7

原创 SQL练习

SELECT基础操作world表1、查询所有国家名字,条件是首都名是国家名加上' City'。SELECT NAME FROM WORLDWHERE CAPTIAL = CONCAT(NAME,'CITY');2、找出所有首都和国家名字,首都名要有国家名出现。SELECT capital,name FROM worldWHERE capital LIKE CONCAT('%',name,'%'...

2018-06-24 15:08:03 1183

原创 利用python进行数据分析学习笔记1(pandas入门)

pandas引入import pandas as pdSeries和DataFrame用的比较多from pandas import Series,DataFramepandas的数据结构介绍Series类似一维数组的对象,由一组数据和索引组成。传入一个列表作为Series的参数创建Seires。obj = pd.Series([4,7,-5,3])        #创建Series通过Serie...

2018-06-24 15:04:44 1399

原创 利用python进行数据分析学习笔记1(NumPy)

常用模块的命名惯例import numpy as npimport matplotlib.pyplot as pltimport pandas as pdimport seaborn as snsimport statsmodels as smnumpy基础NumPy的ndarray是一种多维数组对象,创建一个ndarray实例import numpy as npdata = np.random...

2018-06-24 15:04:42 1313

原创 利用python进行数据分析学习笔记1(数据加载,存储与文件格式)

读写文本格式的数据将工作目录下的一个csv文件读入一个DataFrame中df = pd.read_csv('examples/ex1.csv')也可以是哟个read_table方法,并指定分隔符pd.read_table('examples/ex1.csv',sep=',')有些数据文件没有标题行,如果直接读取,会将第一行默认设置为标题行,传入header=None参数可以避免。pd.read_...

2018-06-24 15:04:39 1369

原创 利用python进行数据分析学习笔记1(数据清洗和准备)

处理缺失数据创建一个含缺失值的Seriesstring_data = pd.Series(['aardvark', 'artichoke', np.nan, 'avocado'])string_data.isnull()通过isnull方法返回一个布尔型Series,缺失值显示为True。通过索引可以将非缺失值设置为缺失值string_data[0] = None处理缺失数据的函数dropna,...

2018-06-24 15:04:36 3242

原创 利用python进行数据分析学习笔记(数据规整:聚合、合并和重塑)

层次化索引data = pd.Series(np.random.randn(9), index=[['a','a','a','b','b','c','c','d','d'], [1,2,3,1,3,1,2,2,3]])data.index创建一个Series,通过index属性可以获取其索引。使用索引和切片选择层次化Series...

2018-06-24 15:04:34 776

原创 利用python进行数据分析学习笔记(绘图和可视化)

matplotlib API入门引入matplotlibimport matplotlib.pyplot as plt创建一个简单的图形data = np.arange(10)plt.plot(data)Figure和Subplotmatplotlib的图像都位于Figure对象中,可以用plt.figure创建一个新的Figure。fig = plt.figure()fig.show()弹出...

2018-06-24 15:04:31 3266

原创 利用python进行数据分析学习笔记(数据聚合与分组运算)

GroupBy机制df = pd.DataFrame({'key1' : ['a', 'a', 'b', 'b', 'a'], 'key2' : ['one', 'two', 'one', 'two', 'one'], 'data1' : np.random.randn(5), 'da...

2018-06-24 15:04:29 1685

原创 商务与经济统计阅读笔记3

简单线性回归回归分析:利用统计学方法来建立一个表示变量间相互关系的方程。被预测的变量称为因变量,用来预测的是自变量。14.1 简单线性回归模型ε是一个随机变量,称为模型的误差项,包含在y中,但是不能被x和y之间的线性关系解释的变异性。估计的回归方程,用样本统计量b0和b1来作为总体参数β0和β1的估计量。利用最小二乘法计算b0和b1。14.2 最小二乘法最小二乘法利用样本数据,通过使因变量的观测值...

2018-06-24 15:04:10 1199

原创 商务与经济统计阅读笔记1

统计是搜集、分析、表述和解释数据的艺术和科学。描述统计用表格、图形和数值方法来汇总数据。统计推断是利用样本数据估计总体特征并进行假设检验的过程。汇总分类变量的数据:频数分布,相对频数分布和百分数频数分布,条形图和饼形图。汇总数量变量的数据:频数分布,相对频数分布和百分数频数分布,打点图,直方图,累积分布,茎叶显示。用表格方法汇总两个变量的数据:交叉分组表,辛普森悖论:依据综合和未综合数据得到的相反...

2018-06-24 15:04:09 1278

原创 商务与经济统计阅读笔记2

因为不能期望点估计量能给出总体参数的精确值,故常在点估计量上加减一个边际误差来计算区间估计。8.1 当总体标准差已知时,总体均值的区间估计区间估计1-α表示置信系数。比如置信系数为0.95时,则这个区间称为95%的置信区间,有95%的把握相信区间内包含总体均值μ。或者换种说法,从区间中随机取100个数,再次组成区间,约有95个区间包含总体均值。如果总体的分布不服从正态分布,那样本容量要尽量大。8....

2018-06-24 15:04:07 1125

原创 SQL必知必会学习笔记

主键:一列(或一组列),其值可以唯一标识表中每一行。用SELECT语句检索数据SELECT prod_name FROM Products;表示从Products表中检索一个名为prod_name的列,结果会返回prod_name列。SELECT prod_id,prod_name,prod_price FROM Products;表示从Products表中选三个列,结果会返回三个列。SELECT...

2018-06-24 15:03:42 1767

原创 王佩丰数据透视表(六到十一讲)

动态引用数据源区域。结合新建名称和offset函数,设置一个动态数据区域。插入数据透视表时引用这个名称即可。Gerpivotdata函数可以动态地引用数据透视表中的数据,默认是开启的。举个例子,在透视表外引用单元格B5,会显示即动态引用常熟区域的彩盒金额,此后如果常熟和彩盒的顺序改变了,该单元格也会动态调整,引用的数据仍然是常熟的彩盒。这个动态引用功能可以在数据透视表工具栏的分析——选项处的生成G...

2018-06-24 15:03:35 8284 1

原创 王佩丰数据透视表(一到五讲)

创建数据透视表选中数据区域,然后插入数据透视表即可。自定义字段到透视表中,双击值字段中的数据,可以跳转到该数据的数据源。避免源数据泄漏:复制粘贴时仅粘贴表格中的数据。如果删除掉字段中的某个项目,下拉框中还会显示出来。比如以部门为行字段,删除掉源数据中的四科,下拉框中还有,此问题可以在数据透视表选项中解决。创建数据透视表后默认有行列的总计,也可以通过数据透视表选项除去。嫌筛选字段竖着排列不好看?通过...

2018-06-24 15:03:33 11644 3

原创 王佩丰excel2010基础教程学习笔记(最后几讲图表的)

创建经典动态图通过勾选复选框选择数据是否出现。首先建立两个复选框,并将其值关联到两个单元格。新建名称彩盒和宠物用品,如果复选框关联的单元格的值为True时就引用数据区域,否则引用空白的数据区域。新建一个空白折线图,右键选择数据源,添加新的图例项。系列名称是定义好的名称,系列值是工作表名加定义好的名称。此时就可以通过勾选复选框来控制折线图。介绍一下offset函数,举个例子,offset(A1,1,...

2018-06-24 15:03:22 4579

原创 王佩丰excel2010基础教程学习笔记(第十一讲到第十五讲)

vlookup()函数,纵向查找函数。举个例子=VLOOKUP(G6,$B$6:$E$10,4,0)参数一是要查找的值,参数二是要查找的区域,参数三是返回查找区域的第几列,参数四是精确匹配还是模糊匹配。注意,查找的值必须位于查找区域的第一列。参数二可以在其他工作表。参数四为0时表示精确匹配,1表示模糊匹配。模糊匹配会向下匹配。举个例子,当销售额在0到两百万间,提成比例为5%。=VLOOKUP(G9...

2018-06-24 15:03:19 12645

原创 王佩丰excel2010基础教程学习笔记(第十六讲到第二十讲)

简单文本函数:left,right,mid,findleft()函数有两个参数,参数一是字符串所在单元格,参数二是从字符串左边开始取几位。从字符串左边开始取三位。right()函数一样,不过是从字符串右边开始取。从字符串右边开始取四位。mid()函数有三个参数,参数一是字符串所在单元格,参数二是从第几位开始取,参数三是取几位。从A3单元格的第四位开始取,取100位。find()函数有三个参数,参数...

2018-06-24 15:03:15 5495

原创 王佩丰excel2010基础教程学习笔记(第六讲到第十讲)

选中数据所在区域,选择插入——数据透视表即可生成数据透视表。——将字段放入选定的区域,可以自由定制透视表。在值字段区域右键可以选择不同的显示和汇总方式。双击值字段的数据可以获取其源数据。行列字段的分组设定:通过分组可以将字段按照步长分为多个区域,再汇总各区域中的数据。比如将金额移植到行字段,通过分组分为多个区间,再汇总各区间。通过计算字段可以在透视表中通过已知数据建立一个新列。如果有错误值,可以通...

2018-06-24 15:03:01 21311

原创 王佩丰excel2010基础教程学习笔记(第一讲到第五讲)

全部重排:打开两个或以上excel表格时,通过全部重排可以全部呈现在屏幕上。如将三个excel表格垂直并排。选择视图中的全部重排。再选择垂直并排。冻结窗格:此选项可以冻结首行首列,或者冻结选中单元格的左侧的列和上侧的行。填充柄:在单元格中输入数据,右键单元格右下角往下拉会出现填充柄。在单元格内按Alt加Enter是换行的操作,有时候要做表头的时候会用到。分列工具:通过选择相应的分隔符可以将一列数据...

2018-06-24 15:02:55 22825 2

转载 经典SQL练习题

1、查询student表中的所有记录的Sname、Ssex和Class列。SELECT Sname,Ssex,ClassFROM student;2、查询教师所有的单位不重复的Depart列SELECT DISTINCT DEPART FROM TEACHER; 3、查询Student表的所有记录SELECT * FROM STUDENT;4、查询Score表中成绩在60到80之间的所有记录。S...

2018-06-24 15:02:35 927

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除