python
文章平均质量分 78
小文的数据之旅
不想当码农的伪码农就是我啦!哈哈哈。。。知乎专栏:小文的数据之旅
展开
-
重温统计学---时间序列实践
背景:03年到19年第一季度分季度的数据,13年之前只有传统汽车的销量,13年之后是传统汽车+新能源汽车的销量,需要预测未来三期传统汽车的销量~ps:传统汽车的销量会受到新能源汽车的影响。import pandas as pdimport matplotlib.pyplot as pltimport numpy as npimport statsmodels.api as smf...原创 2020-03-08 11:58:45 · 426 阅读 · 0 评论 -
线性回归实战
import pandas as pd from sklearn.linear_model import LinearRegression from sklearn.model_selection import train_test_splitfrom sklearn.preprocessing import StandardScalerfrom sklearn.metrics impo...原创 2020-02-09 21:57:53 · 1259 阅读 · 0 评论 -
重温统计学--假设验证
小文 | 公众号 小文的数据之旅上一期说到三大抽样分布的主要作用在于参数估计与假设验证,参数估计已经在重温统计学--参数估计介绍过了,今天我们来看看假设验证是什么,怎么用?假设检验其实很好理解,生活中的例子也很多,最常见的就是应用在法庭上,法官先假设嫌疑犯无罪,然后收集证据,如果有足够证据证明嫌疑犯有罪,则需要宣判嫌疑犯有罪。假设验证做的就是这么一回事,先不管其在统计学中的作用,更为重要的...原创 2020-01-05 22:17:26 · 766 阅读 · 0 评论 -
抽样分布实践
import pandas as pdimport numpy as npfrom scipy import statsimport seaborn as snsimport matplotlib.pyplot as plt%matplotlib inlinedata = pd.read_excel('./Desktop/data.xlsx')data.describe()o...原创 2019-12-22 13:03:27 · 190 阅读 · 1 评论 -
python实现二项分布、泊松分布和正态分布
from scipy.stats import binom,poisson,normimport matplotlib as mplimport matplotlib.pyplot as pltimport numpy as np%matplotlib inlinempl.rcParams['font.sans-serif'] = ['SimHei']mpl.rcParams['ax...原创 2019-12-06 16:01:09 · 1983 阅读 · 0 评论 -
重温统计学--python实现概括性度量
#导入所需的包import pandas as pdimport numpy as npimport seaborn as snsfrom scipy import stats#读取数据,并用describe查看数据的分布情况data = pd.read_excel('./Desktop/实践一.xlsx')data.describe()out:datacount 699...原创 2019-11-13 23:12:25 · 226 阅读 · 0 评论 -
SVM---这可能是最直白的推导了
小文 | 公众号 小文的数据之旅百度百科:(1)支持向量机(Support Vector Machine, SVM)是一种对数据进行二分类的广义线性分类器,其分类边界是对学习样本求解的最大间隔超平面。(2)SVM使用铰链损失函数计算经验风险并在求解系统中加入了正则化项以优化结构风险,是一个具有稀疏性和稳健性的分类器 。(3)SVM可以通过引入核函数进行非线性分类。从百度百科关于...原创 2019-10-18 09:09:01 · 956 阅读 · 0 评论 -
轻松入门机器学习--逻辑回归(理论)
小文 | 公众号 小文的数据之旅上一期介绍了回归模型中最简单的线性回归模型的理论知识以及分别从最小二乘法、批量梯度下降法、随机梯度下降法和小批量梯度下降法求得线性回归的最优解,今天将介绍分类模型中最简单的逻辑回归模型。逻辑回归模型听起来像是回归模型,那么它是怎么成为分类模型的呢?首先还是从回归模型说起,现在假设一个函数g(x)且的一个连续值 ,x有n个特征,得到:;那么怎么利用g(x...原创 2019-06-30 18:15:00 · 201 阅读 · 0 评论 -
轻松入门机器学习--线性回归
小文 | 公众号 小文的数据之旅上一次已经对机器学习的一些概念,一些损失函数以及模型的评估方法都做了简要的介绍,今天我们开始学习第一个机器学习的算法模型,它就是线性回归。其实我们大概在高中的时候,我们已经学过了,为什么我会这么说呢?对于 这个函数,相信大家都不陌生了吧!还记得怎么求斜率k和截距b吗?当我们知道两个数据点的时候,就可以通过代入函数求得k和b。当数据量大起来之后,k和b值就得...原创 2019-06-21 17:06:08 · 285 阅读 · 0 评论 -
轻松入门机器学习-线性回归实战
小文 | 公众号 小文的数据之旅上一期我们已经把线性回归的理论部分介绍完了,那么这一期当然是大家期待已久的实战篇了!下面将从stasmodels包的最小二乘法、skleran的最小二乘法、批量梯度下降法、随机梯度下降法和小批量随机梯度下降法等方式实现线性回归。 下面首先回忆一下几条重要的公式:损失函数: 最小二乘法求最优参数: 梯度下降法求最优参数: 接下来要讲到的几种实现线性回归...原创 2019-06-21 17:03:27 · 675 阅读 · 0 评论 -
建议收藏!最有效率的python数据分析入门书单
又到了周末,是时候跟新一波了!常有人问起来,我是怎么转行到数据分析行业的,又是怎么从零编程入坑python的,面对市面上那么多《xx天入门》的书籍,该如何挑选?今天小文将捋一捋我的学(ru)习(keng)路径以及方法。书中自有黄金屋,书中自有颜如玉,此话不假,但前提是你要找到有黄金屋的书,加上独立思考,并且努力实践。总结了多位大佬的学习方法后,小文找到了最有效率地入门路径那就是选好方向,看有用...原创 2019-06-02 17:03:31 · 9891 阅读 · 8 评论 -
pyecharts带你领略动态轨迹图的风骚
文章的开始先打波广告,小文的公众号也开始跟大家见面了,喜欢的我就来'小文的数据之旅'找我玩吧!后台回复pyecharts可获得本文使用的数据源。ok,进入今天的主题!最近很多朋友问起pyecharts,尤其是地理坐标图的制作,都说被其图形之美给吸引到了。刚好今天也有同事问起来,那么今天就以pyecharts的动态地理轨迹图为例,说说该怎么使用pyecharts。import pand...原创 2019-05-23 09:13:43 · 8442 阅读 · 7 评论 -
数据分析实战--保险公司客户分类分析
五一假期过去了,不知道大家过得怎么样呢?假期的这几天,小文没有选择出去旅游(不想成为人海中的一员-。-),而是待在家里好好地阅读了我的新书--陈哲老师的《活用数据,驱动业务的数据分析实战》,可谓收获满满。当然说的不是spss的使用技巧,而是分析的思路。书里的案例用的spss,小文并不会,因此小文用python实现了一下。这个案例来自于第六章--甲保险公司客户分类分析。文中使用了stp法进行分析...原创 2019-05-05 20:41:58 · 8559 阅读 · 5 评论 -
python学习之路--可视化利器matplotlib(下)
上一期我们介绍了matplotlib作图的基本思维,也对相关参数以及一些简单的图表进行示例演示,今天继续用matplotlib绘制一些既实用又有趣的图表。另外还有朋友问到能不能介绍一下pyecharts的用法,其实在很早之前就介绍过了,分别是pyecharts在手,天下我有(常用图表篇上)和pyecharts在手,天下我有(常用图表篇下)。1. 面积图上一期有读者问到如果想要把折线图下方的...原创 2019-04-19 22:18:05 · 259 阅读 · 0 评论 -
python爬虫实践(腾讯新闻)
作为数据分析师的我们,数据来源很重要,其中爬虫是我们获取数据的一个手段。那么爬虫是什么呢?爬虫在百度百科的解释,是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本,简单点说就是一段帮我们抓取数据的代码。那么在爬取数据之前,我们需要懂得一些前端的知识,那样有助于我们快速有效的爬取目标数据,在这里小文也就不细说了(只懂得皮毛。。),直接上案例。#requests + Beautif...原创 2018-08-21 16:45:22 · 1506 阅读 · 2 评论 -
关于数据分析师的123
大家好,我是小文。今天小文打算给大家带来一些不一样的分享,认识小文的朋友都知道,小文一般给大家带来的要么是学习笔记,要么是项目的实践,但是今天小文只想跟大家好好地聊一聊作为一个数据分析师,他是长什么样子的?首先,数据分析师是一类什么样的职业?具备什么技能才能成为一个数据分析师呢?数据分析师在百科上的定义:指的是不同行业中,专门从事行业数据搜集、整理、分析,并依据数据做出行业研究、评估和...原创 2018-09-05 23:39:40 · 271 阅读 · 0 评论 -
pyecharts在手,天下我有(常用图表篇上)
当python撞上echarts时,会产生怎样的火花?答案就是pyecharts!从上一篇《pyechart在手,天下我有(地图篇)》,已经看到它的魅力所在了,今天继续介绍其它图表的绘制,尤其是报告中常见的图表。绘图步骤:from pyecharts import Chart,configure #导入所需绘图函数configure(output_image=T...原创 2018-09-09 21:27:24 · 7985 阅读 · 7 评论 -
pyecharts在手,天下我有(常用图表篇下)
在上一篇《pyecharts在手,天下我有(常用图表篇上)》中,已经介绍了常用图表中的条形图,折线图,面积图,散点图以及饼图,大家都学会了吗?今天我们继续介绍其他常用的图表,如瀑布图,漏斗图,散点图,雷达图,桑基图以及并行、叠加图等等。实例演示1(瀑布图Bar):瀑布图其实就是堆积条形图,只是将其中一组颜色填充为透明label_color=['rgba(0,0,0,0)']fro...原创 2018-09-12 12:27:35 · 1772 阅读 · 3 评论 -
分分钟搞掂SQL
SQL是数据分析师最最基础的一项技能,而身为数据分析师的小文,每天必做的事情就是写SQL取数,那么今天我们就来说说关于SQL的一些使用心得。开始之前,先来说说关于SQL的读音,有人说SQL在国外的读音是'S-Q-L'三个字母的读音,而在国内大部分都是读作'sequel',音译的话是'社口',那到底哪一个才是正确的读音呢?经考究,正确的读音是'S-Q-L',当然你要读'sequel'也可以,就像...原创 2018-09-24 21:08:31 · 269 阅读 · 0 评论 -
Python:带你走进哈利波特的魔法世界
最近有将近一个月的时间没更新了,并不是小文有心地偷懒,而是实在是有太多的砖要搬了(不多说了,等会还要继续搬-_-!!)......因为最近的项目涉及到文本分析(jieba包)以及人物关系分析(gephi),因此今天就整理总结一下,以哈利波特七部曲(国庆假期看的)为例,分享一下个人的使用心得。先简单介绍一下jieba中文分词包,jieba包主要有三种分词模式:精确模式:默认情况下是精确模式,...原创 2018-10-24 18:46:24 · 2446 阅读 · 2 评论 -
python学习之路--数据结构
python常用的数据结构有元组tuple,列表list,字典dictionary和集合set。元组tuple元组最大的特点是元素不可修改,因此对于代码的安全性而言,元组是最佳的数据结构。因为元组中的元素不可修改,因此对于元组中的元素只能查询不能更改。#普通索引tup = (1,2,3)tup[1]2#切片索引tup[1:](2, 3)列表list列表是pyth...原创 2019-03-07 11:49:57 · 204 阅读 · 0 评论 -
python学习之路--pandas读写文件
上一期对于pandas的数据结构以及基本的增查删改进行了简单的介绍,这一期接着利用pandas进行读写文件。1.读取文件利用pandas读取文件主要用到的函数是read_xx(),读取后数据结构为dataframe,接下来对read_xx()进行一一讲解。1.1 excel文件pd.read_excel()可以用来读取excel文件,主要涉及到的参数有:(1)sheet_nam...原创 2019-03-24 19:37:51 · 1097 阅读 · 1 评论 -
python学习之路--数据分析利器pandas(上)
pandas的实用性相信不用我多说,大家都知道其厉害之处,无论是《利用python进行数据分析》,还是《python科学计算与数据分析》等等书籍都花了很大篇幅去介绍它的功能。今天根据个人的学习心得以及工作上使用的经验对其进行一个简单的汇总。1. 数据结构pandas常用的数据结构有两种,分别是一维的series(一组索引和一组数据)和二维的dataframe。series由一组索引和一组数...原创 2019-03-21 16:30:42 · 238 阅读 · 0 评论 -
python学习之路---pandas预处理常用操作
python常用于数据分析,主要是因为有了数据分析利器--pandas。前两期已经介绍了pandas的数据结构、读写操作等,今天主要介绍一下常用的数据分析预处理的操作,分别是:(1)缺失值处理:dropna(),fillna()(2)重复值处理:drop_duplicates()(3)离散化:cut(),qcut()(4)分组聚合:groupby()(5)数据透视表:pivot...原创 2019-03-28 17:03:21 · 373 阅读 · 0 评论 -
python学习之路--可视化利器matplotlib(上)
前几期已经把读写数据、数据预处理等介绍完了,今天我们接着介绍一个可视化的库matplotlib,虽说现在已经有了更为高级的可视化库,如seaborn,ploty,pyecharts等,但是matplotlib是最为基础,作图思路最为全面的可视化库,学会了matplotlib之后,再学其他的就显得更为简单。1.作图之前为了使得作图能正常的显示,作图之前往往都需要添加以下代码:#解决中文...原创 2019-04-07 19:50:00 · 394 阅读 · 0 评论 -
pyecharts可视化:爱情公寓==爱情公墓?
爱情公寓大电影已经上映两周了,这种包含十年情怀的超级大IP,上映前就充斥着各种争议,上映后更是议论不断,差评如潮。首日票房超过3亿元,接着豆瓣评分2.6,火爆的票房和低下的评分,形成了强烈的对比,这种充斥着强烈矛盾的神剧,作为十年粉丝的小文,今天也来八一八爱情公寓大电影的是是非非。一、数据获取#requests + jsonimport requestsimport jsonimp...原创 2018-08-26 22:46:44 · 457 阅读 · 1 评论