互联网
文章平均质量分 82
小文的数据之旅
不想当码农的伪码农就是我啦!哈哈哈。。。知乎专栏:小文的数据之旅
展开
-
用数据分析看数据分析师
在学习数据分析的路上,少不了经常逛各大平台,知乎啊,微信公众号啊,CSDN啊等等,而写这篇文章的初衷是想了解一下数据分析师这个岗位需要的技能有哪些,需求量大不大以及待遇如何等等。 因此,小文将针对智联招聘上广州,深圳以及东莞3个城市的数据分析岗位的相关信息进行分析。话不多说,直接进入主题!1. 爬虫 数据来源于智联招聘,一共有247条数据,包括薪资待遇,城市分布,工...原创 2018-05-18 19:08:20 · 475 阅读 · 0 评论 -
python学习之路--数据结构
python常用的数据结构有元组tuple,列表list,字典dictionary和集合set。元组tuple元组最大的特点是元素不可修改,因此对于代码的安全性而言,元组是最佳的数据结构。因为元组中的元素不可修改,因此对于元组中的元素只能查询不能更改。#普通索引tup = (1,2,3)tup[1]2#切片索引tup[1:](2, 3)列表list列表是pyth...原创 2019-03-07 11:49:57 · 200 阅读 · 0 评论 -
python学习之路--pandas读写文件
上一期对于pandas的数据结构以及基本的增查删改进行了简单的介绍,这一期接着利用pandas进行读写文件。1.读取文件利用pandas读取文件主要用到的函数是read_xx(),读取后数据结构为dataframe,接下来对read_xx()进行一一讲解。1.1 excel文件pd.read_excel()可以用来读取excel文件,主要涉及到的参数有:(1)sheet_nam...原创 2019-03-24 19:37:51 · 1088 阅读 · 1 评论 -
python学习之路--数据分析利器pandas(上)
pandas的实用性相信不用我多说,大家都知道其厉害之处,无论是《利用python进行数据分析》,还是《python科学计算与数据分析》等等书籍都花了很大篇幅去介绍它的功能。今天根据个人的学习心得以及工作上使用的经验对其进行一个简单的汇总。1. 数据结构pandas常用的数据结构有两种,分别是一维的series(一组索引和一组数据)和二维的dataframe。series由一组索引和一组数...原创 2019-03-21 16:30:42 · 231 阅读 · 0 评论 -
python学习之路---pandas预处理常用操作
python常用于数据分析,主要是因为有了数据分析利器--pandas。前两期已经介绍了pandas的数据结构、读写操作等,今天主要介绍一下常用的数据分析预处理的操作,分别是:(1)缺失值处理:dropna(),fillna()(2)重复值处理:drop_duplicates()(3)离散化:cut(),qcut()(4)分组聚合:groupby()(5)数据透视表:pivot...原创 2019-03-28 17:03:21 · 366 阅读 · 0 评论 -
python学习之路--可视化利器matplotlib(上)
前几期已经把读写数据、数据预处理等介绍完了,今天我们接着介绍一个可视化的库matplotlib,虽说现在已经有了更为高级的可视化库,如seaborn,ploty,pyecharts等,但是matplotlib是最为基础,作图思路最为全面的可视化库,学会了matplotlib之后,再学其他的就显得更为简单。1.作图之前为了使得作图能正常的显示,作图之前往往都需要添加以下代码:#解决中文...原创 2019-04-07 19:50:00 · 380 阅读 · 0 评论 -
python学习之路--可视化利器matplotlib(下)
上一期我们介绍了matplotlib作图的基本思维,也对相关参数以及一些简单的图表进行示例演示,今天继续用matplotlib绘制一些既实用又有趣的图表。另外还有朋友问到能不能介绍一下pyecharts的用法,其实在很早之前就介绍过了,分别是pyecharts在手,天下我有(常用图表篇上)和pyecharts在手,天下我有(常用图表篇下)。1. 面积图上一期有读者问到如果想要把折线图下方的...原创 2019-04-19 22:18:05 · 252 阅读 · 0 评论 -
数据分析实战--保险公司客户分类分析
五一假期过去了,不知道大家过得怎么样呢?假期的这几天,小文没有选择出去旅游(不想成为人海中的一员-。-),而是待在家里好好地阅读了我的新书--陈哲老师的《活用数据,驱动业务的数据分析实战》,可谓收获满满。当然说的不是spss的使用技巧,而是分析的思路。书里的案例用的spss,小文并不会,因此小文用python实现了一下。这个案例来自于第六章--甲保险公司客户分类分析。文中使用了stp法进行分析...原创 2019-05-05 20:41:58 · 8507 阅读 · 5 评论 -
pyecharts带你领略动态轨迹图的风骚
文章的开始先打波广告,小文的公众号也开始跟大家见面了,喜欢的我就来'小文的数据之旅'找我玩吧!后台回复pyecharts可获得本文使用的数据源。ok,进入今天的主题!最近很多朋友问起pyecharts,尤其是地理坐标图的制作,都说被其图形之美给吸引到了。刚好今天也有同事问起来,那么今天就以pyecharts的动态地理轨迹图为例,说说该怎么使用pyecharts。import pand...原创 2019-05-23 09:13:43 · 8386 阅读 · 7 评论 -
Python:带你走进哈利波特的魔法世界
最近有将近一个月的时间没更新了,并不是小文有心地偷懒,而是实在是有太多的砖要搬了(不多说了,等会还要继续搬-_-!!)......因为最近的项目涉及到文本分析(jieba包)以及人物关系分析(gephi),因此今天就整理总结一下,以哈利波特七部曲(国庆假期看的)为例,分享一下个人的使用心得。先简单介绍一下jieba中文分词包,jieba包主要有三种分词模式:精确模式:默认情况下是精确模式,...原创 2018-10-24 18:46:24 · 2424 阅读 · 2 评论 -
分分钟搞掂SQL
SQL是数据分析师最最基础的一项技能,而身为数据分析师的小文,每天必做的事情就是写SQL取数,那么今天我们就来说说关于SQL的一些使用心得。开始之前,先来说说关于SQL的读音,有人说SQL在国外的读音是'S-Q-L'三个字母的读音,而在国内大部分都是读作'sequel',音译的话是'社口',那到底哪一个才是正确的读音呢?经考究,正确的读音是'S-Q-L',当然你要读'sequel'也可以,就像...原创 2018-09-24 21:08:31 · 253 阅读 · 0 评论 -
pyecharts在手,天下我有(常用图表篇下)
在上一篇《pyecharts在手,天下我有(常用图表篇上)》中,已经介绍了常用图表中的条形图,折线图,面积图,散点图以及饼图,大家都学会了吗?今天我们继续介绍其他常用的图表,如瀑布图,漏斗图,散点图,雷达图,桑基图以及并行、叠加图等等。实例演示1(瀑布图Bar):瀑布图其实就是堆积条形图,只是将其中一组颜色填充为透明label_color=['rgba(0,0,0,0)']fro...原创 2018-09-12 12:27:35 · 1754 阅读 · 3 评论 -
用数据分析看泰坦尼克号
作为R语言的初学者,你是否也曾觉得看书看教程觉得so easy,但到了实际操作却无从下手了呢?没(hu)关(you)系(ni)……那都是假的,哈哈哈,好啦,我们还是多多实战才是硬道理。 本文引用的数据集 - - Titanic Machine Learning from Disaster(被誉为五大最适合数据分析练手项目之一)就非常适合我们进行练手,当然我们接下来要讲的并不是“y...原创 2018-05-18 19:28:03 · 2720 阅读 · 0 评论 -
用数据分析看共享单车
前几天是小文人生中一个非常重要的纪念日,说不上里程碑,但也是非常值得纪念的一个日子,为此,小文骑着“hello bike”奔向庆祝的大道上。有人问,为什么要骑共享单车,那还用说吗?这是情(zhuang)调(bi)懂不懂… 那天之后,小文就想做一个关于共享单车的分析,上kaggle看见有一个数据集---bike sharing,那是美国华盛顿共享单车数据,也是非常适合练手的一个...原创 2018-05-18 19:53:39 · 11366 阅读 · 0 评论 -
20G数据告诉你,这才是吃鸡的正确姿势
据某分析机构的研究表明,截止2018年4月,火爆全球的《绝地求生》收入已超10亿美元,其中有40%是中国的玩家。虽然国服还没遥遥无期,但作为游戏爱好者的小文也还是加入了吃鸡的大部队当中,作为小菜鸡的我,自以为分析了kaggle上20G的吃鸡数据,发现了吃鸡的正确姿势。1. 抱团杀敌比独行侠更有利于吃鸡 游戏模式有三种,单打独斗、两人抱团以及四人抱团,各有各乐趣,小文在练习枪...原创 2018-05-30 12:11:07 · 2710 阅读 · 0 评论 -
学习笔记--亲测MySQL练习题(WIN10)
在上一章学习笔记--图解mySQL安装过程后,相信大家都已经学会了怎么在WIN10安装MySQL了,今天小文给大家带来一些MySQL练习题,据说学会这些练习题就可以完美撒花了!MySQL版本:MySQL8.0测试表格:Student (SId,Sname,Sage,Ssex)Course (CId,Cname,TId)Teacher (TId,Tname)SC (SId,CId,score)建数据...原创 2018-06-13 18:43:09 · 2976 阅读 · 3 评论 -
学习笔记--图解mySQL安装过程
作为数据分析师的你我他,常常需要用到数据库。在前两期的用数据分析看数据分析师一文,我们便发现数据分析师的必备技能之一就是SQL的使用,所以今天小文用图片展示的方式解密MySQL 8.0.11(Win10)的安装过程。第一步:下载MySQL 8.0.11(Win10)安装器打开MySQL官网,找到基于Win10的MySQL installer:打开下载页面之后,可以不注册直接拉到最下面的just s...原创 2018-06-07 17:04:10 · 6186 阅读 · 1 评论 -
pyecharts可视化:爱情公寓==爱情公墓?
爱情公寓大电影已经上映两周了,这种包含十年情怀的超级大IP,上映前就充斥着各种争议,上映后更是议论不断,差评如潮。首日票房超过3亿元,接着豆瓣评分2.6,火爆的票房和低下的评分,形成了强烈的对比,这种充斥着强烈矛盾的神剧,作为十年粉丝的小文,今天也来八一八爱情公寓大电影的是是非非。一、数据获取#requests + jsonimport requestsimport jsonimp...原创 2018-08-26 22:46:44 · 446 阅读 · 1 评论 -
python爬虫实践(腾讯新闻)
作为数据分析师的我们,数据来源很重要,其中爬虫是我们获取数据的一个手段。那么爬虫是什么呢?爬虫在百度百科的解释,是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本,简单点说就是一段帮我们抓取数据的代码。那么在爬取数据之前,我们需要懂得一些前端的知识,那样有助于我们快速有效的爬取目标数据,在这里小文也就不细说了(只懂得皮毛。。),直接上案例。#requests + Beautif...原创 2018-08-21 16:45:22 · 1491 阅读 · 2 评论 -
pyecharts在手,天下我有(常用图表篇上)
当python撞上echarts时,会产生怎样的火花?答案就是pyecharts!从上一篇《pyechart在手,天下我有(地图篇)》,已经看到它的魅力所在了,今天继续介绍其它图表的绘制,尤其是报告中常见的图表。绘图步骤:from pyecharts import Chart,configure #导入所需绘图函数configure(output_image=T...原创 2018-09-09 21:27:24 · 7969 阅读 · 7 评论 -
轻松入门机器学习--逻辑回归(理论)
小文 | 公众号 小文的数据之旅上一期介绍了回归模型中最简单的线性回归模型的理论知识以及分别从最小二乘法、批量梯度下降法、随机梯度下降法和小批量梯度下降法求得线性回归的最优解,今天将介绍分类模型中最简单的逻辑回归模型。逻辑回归模型听起来像是回归模型,那么它是怎么成为分类模型的呢?首先还是从回归模型说起,现在假设一个函数g(x)且的一个连续值 ,x有n个特征,得到:;那么怎么利用g(x...原创 2019-06-30 18:15:00 · 187 阅读 · 0 评论