Jump的博客

要做最好的数据分析师

Python用户消费行为分析实例

本文借鉴于知乎用户秦路的专栏https://zhuanlan.zhihu.com/p/27910430,这里只是自己理解基础上加以扩充和整理修改,丰富细节。 由于手头用户消费数据的缺失我们这次采用专栏的数据进行实战。原数据在此:链接: https://pan.baidu.com/s/1IMd1Z...

2018-10-10 23:44:14

阅读数 1930

评论数 3

关于前程无忧以‘数据分析’为关键词的招聘信息的数据分析

背景:作为个数据分析小菜鸟,深知知行合一的重要性。基于本人目前要在杭州寻找一份数据分析的初阶工作的现实考量,故决定采用前程无忧上关键词‘数据分析’和地点设置在杭州上的招聘信息作为此次数据分析的数据来源来进行实操,同时也为了能让自己更好的了解目前杭州关于数据分析岗位的招聘市场以及岗位的成长性作一个简...

2018-09-27 20:07:02

阅读数 683

评论数 0

python文件处理之批量删除文件夹内特定文件

这篇是个人生活上遇到的小问题,就是为了之前那篇html和css入门,我去淘宝买了五块钱的udacity的前端课程,大家都知道这是国外的在线授课视频,结果我兴冲冲的打开网盘下载,解压到同一个文件夹完就傻眼了。 就是解压的字幕压缩包里居然有四个字幕,四个字幕!然后打开我的视频播放软件居然每次都自...

2018-10-01 09:18:14

阅读数 482

评论数 0

数据可视化之matplotlib库实战(二)

本篇主要内容来自于唐宇迪-机器学习课程的数据可视化章节,此文只做个人实操和理解用。 条形图和散点图 此次实战的数据为美国各大电影网站对各大电影的评分。 # -*- coding: utf-8 -*- import pandas as pd import numpy as np im...

2018-09-24 23:42:11

阅读数 54

评论数 0

数据可视化之matplotlib库实战(一)

本篇主要内容来自于唐宇迪-机器学习课程的数据可视化章节,此文只做个人实操和理解用。 #折线图的绘制 # -*- coding: utf-8 -*- import pandas as pd #首先还是照例导入文件 unrate = pd.read_csv(r'/Users/herenyi...

2018-09-20 15:40:46

阅读数 329

评论数 0

数据爬取之基本概念

初识html 这一块我也是新手,html是一种用来描述网页的语言,也叫超文本标记语言,就是我们肉眼所看到经过浏览器解释的网页,实际背后是用html书写的文本。其中关键是html标记标签,如,一般这种标签由正反尖括号组成,里面是关键词,成对出现,代表该关键词的开始位置和结束位置,一般我们爬取数据只...

2018-09-18 22:47:30

阅读数 659

评论数 0

数据可视化之各类图表绘制(待补充)

散点图的绘制 散点图 (scatter diagram): 是以一个变量为横坐标,另一变量为纵坐标,利用散点的分布形态放映变量关系的一种图形。主要由matplotlib库里的plt.plot(x,y,style,color=(r,g,b)’)函数实现,主要由如上四个参数。 # -*- codi...

2018-09-18 19:25:05

阅读数 480

评论数 0

数据处理之日期处理

日期转换 通常文件读取的日期都为字符型,为了计算,我们需要将这转化为日期型数据。主要用到to_datetime(x, format)函数,x是你要处理的日期型字符串,format是你要输出的日期型格式。下面我们以输出年月日格式为例: # -*- coding: utf-8 -*- import p...

2018-09-18 15:49:43

阅读数 366

评论数 0

数据处理之数据标准化和数据分组

数据标准化 数据标准化是指让所有数据等比例缩放,使之落入特定区间便于计算与分析,常用的有0-1标准化,公式为: 代码实现如下: # -*- coding: utf-8 -*- import pandas as pd df = pd.read_csv(r&amp...

2018-09-17 19:14:22

阅读数 255

评论数 0

数据处理之数据过滤,合并与随机抽样

数据过滤与筛选 常用的数据过滤有以下五种手段:比较运算,范围运算,空值匹配,字符匹配和逻辑匹配,下面我们就以实例来进行学习。首先还是导入我们的文件 # -*- coding: utf-8 -*- import pandas as pd df = pd.read_csv(r...

2018-09-17 16:59:59

阅读数 225

评论数 0

数据处理之字符串操作

字段抽取 字段抽取是指根据已知的字段抽取你想要的其中一部分组成新的列,主要是靠slice()函数来实现,主要有start和stop两个参数,我们都知道开始位置从0开始,结束位置为n-1。 下面我们以手机号码为例子做个字段截取, 首先导入文件: # -*- coding: utf-8...

2018-09-17 15:29:31

阅读数 80

评论数 0

数据处理之重复值,缺失值,空格值的处理

重复值处理 去除重复值在python中主要是用drop_duplicates函数,接下来做个小示范( 这边是我的文件路径,如果你想实现此功能需要输入自己的文件路径): # -*- coding: utf-8 -*- import pandas as pd df = pd.read...

2018-09-17 14:38:37

阅读数 234

评论数 0

数据处理之数据的导入与导出

欢迎使用Markdown编辑器写博客 本Markdown编辑器使用StackEdit修改而来,用它写博客,将会带 快捷键 加粗 Ctrl + B 斜体 Ctrl + I 引用 Ctrl + Q 插入链接 Ctrl + L 插...

2018-09-17 12:44:22

阅读数 167

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭