数据分析
塔塔的守护者
珍惜——!
展开
-
pandas基础
import numpy as npimport pandas as pddf = pd.DataFrame()#排序#按索引排序df.sort_index()#按值排序df.sort_values(by='')#选择某些行或列#按切片选择:[]中可以是数字索引,为前闭后开;也可以是名称,为前闭后闭#只能用列名显示某一列,或者用范围显示某些行,不能同时选择行和列。df[]#按标签选择:用.loc,[]内只能用行或列的名称,范围为前闭后闭,可以对行或列任意选取,也可显示标...原创 2020-08-16 21:12:16 · 319 阅读 · 0 评论 -
机器学习之朴素贝叶斯
一、贝叶斯公式:1.贝叶斯分类算法是统计学的一种概率分类方法,朴素贝叶斯分类是贝叶斯分类中最简单的一种,其分类原理是利用贝叶斯公式根据某特征的先验概率计算出其后验概率,然后选择具有最大后验概率的类作为该特征所属的类。朴素贝叶斯分类只做最原始、最简单的假设:所有的特征之间是统计独立的。(1)在事件B发生的情况下,事件A发生的概率:同理可得:,所以:,进而得到贝叶斯公式:(2)全概率公式:如果事件A1,A2,A3,....An构成一个完备事件且都有正概率,那么对于任意一个事件B则有:.原创 2020-08-06 12:33:09 · 227 阅读 · 0 评论 -
python统计分析
1.假设检验:本质上针对连续型变量基本步骤:(1)提出原假设和备择假设 (2)确定适当的检验统计量 (3)规定显著性水平(4)计算检验统计量的值 (5)做出决策单样本t 检验:(1)假设样本服从t分布,原假设为总体均值等于u0 (2)备注假设为总体均值不等于u0(3) 先计算样本均值,样本标准差为 (4)检验统计量如下:(5) 根据计算出来的P值来判断是否拒绝原假设,例如:P值大于显著性水平,则无法拒绝原假设,P值小于显著性水平,则拒绝原假设,接受备择假设,显著性水平可...原创 2020-08-05 22:09:53 · 627 阅读 · 0 评论 -
机器学习之决策树
1.构建决策树的算法有很多,比如:ID3、C4.5、CART,我们选择ID3。2.信息熵:熵定义为信息的期望值,在信息论与概率统计中,熵是表示随机变量不确定性的度量。熵越大,不确定性越大。3.信息增益:就是父节点的信息熵与其下所有子节点总信息熵(赋予权重)之差。4.python实战5.sklearn原创 2020-08-05 20:49:03 · 287 阅读 · 0 评论 -
机器学习之k-近邻算法
1.对于多维样本点,需遵循欧几里得距离:两点为:2.k-近邻算法步骤:(1)计算已知类别数据集中的点与当前点之间的距离(2)按照距离递增次序排序(3)选取与当前点距离最小的k个点(4)确定前k个点所在类别的出现频率(5)返回前k个点出现频率最高的类别作为当前点的预测类别最后,感谢菊安酱在哔站的认真讲解!...原创 2020-08-05 14:50:20 · 353 阅读 · 0 评论 -
数据分析应具备8种思维
首先要感谢林骥大神,他的《数据分析python实战》很实用,对我有很大帮助。1.对比思维:分为同向对比和纵向对比。同向:与同类相比;纵向:针对自身,不同时间的对比。在经济上也有同比和环比。同比:今年该时期与上一年该时期相比;环比:今年该时期与今年上一时期相比。2.细分思维:细分的维度主要包括时间、地区、渠道、产品、员工、客户等。杜邦分析法、麦肯锡的MECE分析法本质上都属于细分思想。3.溯源思维:了解详细情况4.相关思维:建立在相关分析的基础上。5.假设思维:即假设检验:一般为四步:原创 2020-08-03 10:02:16 · 675 阅读 · 0 评论 -
python爬虫心得(包含一些小技巧),还在更新中
1.爬虫我现在常用的两种方法:(1)手动定位所需数据的所在网址(request url),优点:直捣黄龙,一击致命。 对于静态网站:直接右键导出网页源代码,通过ctrl+F即可查询到网页中显示的所有数据。通过右键检查选择Network——All,然后查看Name中的文件对应的Preview,如果其中显示该网页中几乎所有内容(包括你所需要的数据),就查看Headers,一般请求方式(request method)为Get,所需的网址为Request URL。具体步骤:((1))impo...原创 2020-08-01 13:47:16 · 245 阅读 · 0 评论 -
关于数据清洗的简单了解
1.数据分析流程:确定数据分析的目的——》获取数据——》清洗数据——》探索数据——》建模分析——》结果交流2.数据清洗流程:数据的读写——》数据的探索与描述——》数据简单处理——》重复值的处理——》缺失值的处理——》异常值的处理——》文本字符串的处理——》时间格式序列的处理,其中后面的五个部分先后顺序数据的读写:(1) pd.read_csv('文件路径')(2)pd.read_excel('文件路径') 数据的探索与描述:(1) df.info() (2) df.describe()..原创 2020-07-07 15:39:31 · 736 阅读 · 0 评论