自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

  • 博客(35)
  • 收藏
  • 关注

原创 重温统计学---时间序列实践

背景:03年到19年第一季度分季度的数据,13年之前只有传统汽车的销量,13年之后是传统汽车+新能源汽车的销量,需要预测未来三期传统汽车的销量~ps:传统汽车的销量会受到新能源汽车的影响。import pandas as pdimport matplotlib.pyplot as pltimport numpy as npimport statsmodels.api as smf...

2020-03-08 11:58:45 440

原创 重温统计学--时间序列

时间序列包括两种类型,平稳序列与非平稳序列。平稳序列是指各观察值基本上在某个固定的水平上波动,波动是随机的。非平稳序列是指包含趋势、季节性或周期性的序列。趋势成分是否存在可以通过折线图初步判断,或者通过回归分析拟合一条趋势线,然后对回归系数进行显著性检验,如果显著,就可以得出线性趋势显著的结论。季节性至少需要两年的数据,通过将每一年的各个季度通过折线图描述出来。...

2020-03-02 10:43:48 660

原创 线性回归实战

import pandas as pd from sklearn.linear_model import LinearRegression from sklearn.model_selection import train_test_splitfrom sklearn.preprocessing import StandardScalerfrom sklearn.metrics impo...

2020-02-09 21:57:53 1276

原创 重温统计学--假设验证

小文 | 公众号 小文的数据之旅上一期说到三大抽样分布的主要作用在于参数估计与假设验证,参数估计已经在重温统计学--参数估计介绍过了,今天我们来看看假设验证是什么,怎么用?假设检验其实很好理解,生活中的例子也很多,最常见的就是应用在法庭上,法官先假设嫌疑犯无罪,然后收集证据,如果有足够证据证明嫌疑犯有罪,则需要宣判嫌疑犯有罪。假设验证做的就是这么一回事,先不管其在统计学中的作用,更为重要的...

2020-01-05 22:17:26 802

原创 抽样分布实践

import pandas as pdimport numpy as npfrom scipy import statsimport seaborn as snsimport matplotlib.pyplot as plt%matplotlib inlinedata = pd.read_excel('./Desktop/data.xlsx')data.describe()o...

2019-12-22 13:03:27 201 1

原创 抽样分布

统计量:由样本构造一个函数,且此函数不依赖于任何未知参数,则称该函数为统计量,常用的统计量有样本均值、样本方差、样本变异系数。卡方分布:设随机变量X1,X2,…Xn相互独立,且Xi(1,2,…,n)服从标准正态分布N(0,1),则它们的平方和服从自由度为n的卡方分布。由上图可知,当自由度足够大时,卡方分布的概率密度曲线趋于对称,即卡方分布的极限分布是正态分布。T分布...

2019-12-09 16:01:34 1779 1

原创 python实现二项分布、泊松分布和正态分布

from scipy.stats import binom,poisson,normimport matplotlib as mplimport matplotlib.pyplot as pltimport numpy as np%matplotlib inlinempl.rcParams['font.sans-serif'] = ['SimHei']mpl.rcParams['ax...

2019-12-06 16:01:09 2007

原创 重温统计学--python实现概括性度量

#导入所需的包import pandas as pdimport numpy as npimport seaborn as snsfrom scipy import stats#读取数据,并用describe查看数据的分布情况data = pd.read_excel('./Desktop/实践一.xlsx')data.describe()out:datacount 699...

2019-11-13 23:12:25 235

原创 SVM---这可能是最直白的推导了

小文 | 公众号 小文的数据之旅百度百科:(1)支持向量机(Support Vector Machine, SVM)是一种对数据进行二分类的广义线性分类器,其分类边界是对学习样本求解的最大间隔超平面。(2)SVM使用铰链损失函数计算经验风险并在求解系统中加入了正则化项以优化结构风险,是一个具有稀疏性和稳健性的分类器 。(3)SVM可以通过引入核函数进行非线性分类。从百度百科关于...

2019-10-18 09:09:01 973

原创 轻松入门机器学习--逻辑回归(理论)

小文 | 公众号 小文的数据之旅上一期介绍了回归模型中最简单的线性回归模型的理论知识以及分别从最小二乘法、批量梯度下降法、随机梯度下降法和小批量梯度下降法求得线性回归的最优解,今天将介绍分类模型中最简单的逻辑回归模型。逻辑回归模型听起来像是回归模型,那么它是怎么成为分类模型的呢?首先还是从回归模型说起,现在假设一个函数g(x)且的一个连续值 ,x有n个特征,得到:;那么怎么利用g(x...

2019-06-30 18:15:00 219

原创 轻松入门机器学习--线性回归

小文 | 公众号 小文的数据之旅上一次已经对机器学习的一些概念,一些损失函数以及模型的评估方法都做了简要的介绍,今天我们开始学习第一个机器学习的算法模型,它就是线性回归。其实我们大概在高中的时候,我们已经学过了,为什么我会这么说呢?对于 这个函数,相信大家都不陌生了吧!还记得怎么求斜率k和截距b吗?当我们知道两个数据点的时候,就可以通过代入函数求得k和b。当数据量大起来之后,k和b值就得...

2019-06-21 17:06:08 306

原创 轻松入门机器学习-线性回归实战

小文 | 公众号 小文的数据之旅上一期我们已经把线性回归的理论部分介绍完了,那么这一期当然是大家期待已久的实战篇了!下面将从stasmodels包的最小二乘法、skleran的最小二乘法、批量梯度下降法、随机梯度下降法和小批量随机梯度下降法等方式实现线性回归。 下面首先回忆一下几条重要的公式:损失函数: 最小二乘法求最优参数: 梯度下降法求最优参数: 接下来要讲到的几种实现线性回归...

2019-06-21 17:03:27 690

原创 建议收藏!最有效率的python数据分析入门书单

又到了周末,是时候跟新一波了!常有人问起来,我是怎么转行到数据分析行业的,又是怎么从零编程入坑python的,面对市面上那么多《xx天入门》的书籍,该如何挑选?今天小文将捋一捋我的学(ru)习(keng)路径以及方法。书中自有黄金屋,书中自有颜如玉,此话不假,但前提是你要找到有黄金屋的书,加上独立思考,并且努力实践。总结了多位大佬的学习方法后,小文找到了最有效率地入门路径那就是选好方向,看有用...

2019-06-02 17:03:31 9920 8

原创 pyecharts带你领略动态轨迹图的风骚

文章的开始先打波广告,小文的公众号也开始跟大家见面了,喜欢的我就来'小文的数据之旅'找我玩吧!后台回复pyecharts可获得本文使用的数据源。ok,进入今天的主题!最近很多朋友问起pyecharts,尤其是地理坐标图的制作,都说被其图形之美给吸引到了。刚好今天也有同事问起来,那么今天就以pyecharts的动态地理轨迹图为例,说说该怎么使用pyecharts。import pand...

2019-05-23 09:13:43 8535 7

原创 数据分析实战--保险公司客户分类分析

五一假期过去了,不知道大家过得怎么样呢?假期的这几天,小文没有选择出去旅游(不想成为人海中的一员-。-),而是待在家里好好地阅读了我的新书--陈哲老师的《活用数据,驱动业务的数据分析实战》,可谓收获满满。当然说的不是spss的使用技巧,而是分析的思路。书里的案例用的spss,小文并不会,因此小文用python实现了一下。这个案例来自于第六章--甲保险公司客户分类分析。文中使用了stp法进行分析...

2019-05-05 20:41:58 8627 5

原创 python学习之路--可视化利器matplotlib(下)

上一期我们介绍了matplotlib作图的基本思维,也对相关参数以及一些简单的图表进行示例演示,今天继续用matplotlib绘制一些既实用又有趣的图表。另外还有朋友问到能不能介绍一下pyecharts的用法,其实在很早之前就介绍过了,分别是pyecharts在手,天下我有(常用图表篇上)和pyecharts在手,天下我有(常用图表篇下)。1. 面积图上一期有读者问到如果想要把折线图下方的...

2019-04-19 22:18:05 269

原创 python学习之路--可视化利器matplotlib(上)

前几期已经把读写数据、数据预处理等介绍完了,今天我们接着介绍一个可视化的库matplotlib,虽说现在已经有了更为高级的可视化库,如seaborn,ploty,pyecharts等,但是matplotlib是最为基础,作图思路最为全面的可视化库,学会了matplotlib之后,再学其他的就显得更为简单。1.作图之前为了使得作图能正常的显示,作图之前往往都需要添加以下代码:#解决中文...

2019-04-07 19:50:00 410

原创 python学习之路---pandas预处理常用操作

python常用于数据分析,主要是因为有了数据分析利器--pandas。前两期已经介绍了pandas的数据结构、读写操作等,今天主要介绍一下常用的数据分析预处理的操作,分别是:(1)缺失值处理:dropna(),fillna()(2)重复值处理:drop_duplicates()(3)离散化:cut(),qcut()(4)分组聚合:groupby()(5)数据透视表:pivot...

2019-03-28 17:03:21 387

原创 python学习之路--pandas读写文件

上一期对于pandas的数据结构以及基本的增查删改进行了简单的介绍,这一期接着利用pandas进行读写文件。1.读取文件利用pandas读取文件主要用到的函数是read_xx(),读取后数据结构为dataframe,接下来对read_xx()进行一一讲解。1.1 excel文件pd.read_excel()可以用来读取excel文件,主要涉及到的参数有:(1)sheet_nam...

2019-03-24 19:37:51 1120 1

原创 python学习之路--数据分析利器pandas(上)

pandas的实用性相信不用我多说,大家都知道其厉害之处,无论是《利用python进行数据分析》,还是《python科学计算与数据分析》等等书籍都花了很大篇幅去介绍它的功能。今天根据个人的学习心得以及工作上使用的经验对其进行一个简单的汇总。1. 数据结构pandas常用的数据结构有两种,分别是一维的series(一组索引和一组数据)和二维的dataframe。series由一组索引和一组数...

2019-03-21 16:30:42 251

原创 python学习之路--数据结构

python常用的数据结构有元组tuple,列表list,字典dictionary和集合set。元组tuple元组最大的特点是元素不可修改,因此对于代码的安全性而言,元组是最佳的数据结构。因为元组中的元素不可修改,因此对于元组中的元素只能查询不能更改。#普通索引tup = (1,2,3)tup[1]2#切片索引tup[1:](2, 3)列表list列表是pyth...

2019-03-07 11:49:57 216

原创 Python:带你走进哈利波特的魔法世界

最近有将近一个月的时间没更新了,并不是小文有心地偷懒,而是实在是有太多的砖要搬了(不多说了,等会还要继续搬-_-!!)......因为最近的项目涉及到文本分析(jieba包)以及人物关系分析(gephi),因此今天就整理总结一下,以哈利波特七部曲(国庆假期看的)为例,分享一下个人的使用心得。先简单介绍一下jieba中文分词包,jieba包主要有三种分词模式:精确模式:默认情况下是精确模式,...

2018-10-24 18:46:24 2482 2

原创 分分钟搞掂SQL

SQL是数据分析师最最基础的一项技能,而身为数据分析师的小文,每天必做的事情就是写SQL取数,那么今天我们就来说说关于SQL的一些使用心得。开始之前,先来说说关于SQL的读音,有人说SQL在国外的读音是'S-Q-L'三个字母的读音,而在国内大部分都是读作'sequel',音译的话是'社口',那到底哪一个才是正确的读音呢?经考究,正确的读音是'S-Q-L',当然你要读'sequel'也可以,就像...

2018-09-24 21:08:31 297

原创 pyecharts在手,天下我有(常用图表篇下)

在上一篇《pyecharts在手,天下我有(常用图表篇上)》中,已经介绍了常用图表中的条形图,折线图,面积图,散点图以及饼图,大家都学会了吗?今天我们继续介绍其他常用的图表,如瀑布图,漏斗图,散点图,雷达图,桑基图以及并行、叠加图等等。实例演示1(瀑布图Bar):瀑布图其实就是堆积条形图,只是将其中一组颜色填充为透明label_color=['rgba(0,0,0,0)']fro...

2018-09-12 12:27:35 1784 3

原创 pyecharts在手,天下我有(常用图表篇上)

当python撞上echarts时,会产生怎样的火花?答案就是pyecharts!从上一篇《pyechart在手,天下我有(地图篇)》,已经看到它的魅力所在了,今天继续介绍其它图表的绘制,尤其是报告中常见的图表。绘图步骤:from pyecharts import Chart,configure #导入所需绘图函数configure(output_image=T...

2018-09-09 21:27:24 8015 7

原创 关于数据分析师的123

大家好,我是小文。今天小文打算给大家带来一些不一样的分享,认识小文的朋友都知道,小文一般给大家带来的要么是学习笔记,要么是项目的实践,但是今天小文只想跟大家好好地聊一聊作为一个数据分析师,他是长什么样子的?首先,数据分析师是一类什么样的职业?具备什么技能才能成为一个数据分析师呢?数据分析师在百科上的定义:指的是不同行业中,专门从事行业数据搜集、整理、分析,并依据数据做出行业研究、评估和...

2018-09-05 23:39:40 280

原创 pyecharts可视化:爱情公寓==爱情公墓?

爱情公寓大电影已经上映两周了,这种包含十年情怀的超级大IP,上映前就充斥着各种争议,上映后更是议论不断,差评如潮。首日票房超过3亿元,接着豆瓣评分2.6,火爆的票房和低下的评分,形成了强烈的对比,这种充斥着强烈矛盾的神剧,作为十年粉丝的小文,今天也来八一八爱情公寓大电影的是是非非。一、数据获取#requests + jsonimport requestsimport jsonimp...

2018-08-26 22:46:44 469 1

原创 python爬虫实践(腾讯新闻)

作为数据分析师的我们,数据来源很重要,其中爬虫是我们获取数据的一个手段。那么爬虫是什么呢?爬虫在百度百科的解释,是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本,简单点说就是一段帮我们抓取数据的代码。那么在爬取数据之前,我们需要懂得一些前端的知识,那样有助于我们快速有效的爬取目标数据,在这里小文也就不细说了(只懂得皮毛。。),直接上案例。#requests + Beautif...

2018-08-21 16:45:22 1550 2

原创 Pyecharts在手,天下我有(地图篇)

      Hello,大家好,我胡汉三又杀回来了!!从上次更新之后,就有朋友私聊我说怎么不更新了,是不是跟某老板一样带着小姨子跑路了?那当然不是的啦...就算小文有这想法,那至少也得先有个小姨子不是吗?哈哈哈,好啦,不开玩笑了,停更一段时间呢,主要是因为小文最近换了公司,新公司用得比较多的是python,所以小文是闭关修炼python去了~~现在也算是学有小成,就回来记录一番!      大...

2018-08-16 23:09:05 19711 22

原创 学习笔记--亲测MySQL练习题(WIN10)

在上一章学习笔记--图解mySQL安装过程后,相信大家都已经学会了怎么在WIN10安装MySQL了,今天小文给大家带来一些MySQL练习题,据说学会这些练习题就可以完美撒花了!MySQL版本:MySQL8.0测试表格:Student (SId,Sname,Sage,Ssex)Course (CId,Cname,TId)Teacher (TId,Tname)SC (SId,CId,score)建数据...

2018-06-13 18:43:09 3007 3

原创 学习笔记--图解mySQL安装过程

作为数据分析师的你我他,常常需要用到数据库。在前两期的用数据分析看数据分析师一文,我们便发现数据分析师的必备技能之一就是SQL的使用,所以今天小文用图片展示的方式解密MySQL 8.0.11(Win10)的安装过程。第一步:下载MySQL 8.0.11(Win10)安装器打开MySQL官网,找到基于Win10的MySQL installer:打开下载页面之后,可以不注册直接拉到最下面的just s...

2018-06-07 17:04:10 6209 1

原创 20G数据告诉你,这才是吃鸡的正确姿势

据某分析机构的研究表明,截止2018年4月,火爆全球的《绝地求生》收入已超10亿美元,其中有40%是中国的玩家。虽然国服还没遥遥无期,但作为游戏爱好者的小文也还是加入了吃鸡的大部队当中,作为小菜鸡的我,自以为分析了kaggle上20G的吃鸡数据,发现了吃鸡的正确姿势。1. 抱团杀敌比独行侠更有利于吃鸡 游戏模式有三种,单打独斗、两人抱团以及四人抱团,各有各乐趣,小文在练习枪...

2018-05-30 12:11:07 2737

原创 用数据分析看共享单车

前几天是小文人生中一个非常重要的纪念日,说不上里程碑,但也是非常值得纪念的一个日子,为此,小文骑着“hello bike”奔向庆祝的大道上。有人问,为什么要骑共享单车,那还用说吗?这是情(zhuang)调(bi)懂不懂… 那天之后,小文就想做一个关于共享单车的分析,上kaggle看见有一个数据集---bike sharing,那是美国华盛顿共享单车数据,也是非常适合练手的一个...

2018-05-18 19:53:39 11451

原创 用数据分析看泰坦尼克号

作为R语言的初学者,你是否也曾觉得看书看教程觉得so easy,但到了实际操作却无从下手了呢?没(hu)关(you)系(ni)……那都是假的,哈哈哈,好啦,我们还是多多实战才是硬道理。 本文引用的数据集 - - Titanic Machine Learning from Disaster(被誉为五大最适合数据分析练手项目之一)就非常适合我们进行练手,当然我们接下来要讲的并不是“y...

2018-05-18 19:28:03 2755

原创 用数据分析看数据分析师

在学习数据分析的路上,少不了经常逛各大平台,知乎啊,微信公众号啊,CSDN啊等等,而写这篇文章的初衷是想了解一下数据分析师这个岗位需要的技能有哪些,需求量大不大以及待遇如何等等。 因此,小文将针对智联招聘上广州,深圳以及东莞3个城市的数据分析岗位的相关信息进行分析。话不多说,直接进入主题!1. 爬虫 数据来源于智联招聘,一共有247条数据,包括薪资待遇,城市分布,工...

2018-05-18 19:08:20 500

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除