数据分析
柚子一只
好看的皮囊千篇一律,有趣的灵魂二百多斤
展开
-
随机森林算法工作原理
随机森林是一种灵活且易于使用的机器学习算法,即便没有超参数调优,也可以在大多数情况下得到很好的结果。它也是最常用的算法之一,因为它很简易,既可用于分类也能用于回归任务。 在这篇文章中,你将了解到随机森林算法的工作原理以及适用范围。 机器学习算法之随机森林算法工作原理随机森林是一种有监督学习算法。 就像你所看到的它的名字一样,它创建了一个森林,并使它拥有某种方式随机性。 所构建的“森...原创 2019-02-27 16:42:55 · 8163 阅读 · 1 评论 -
数据分析报告包含哪些指标?
1、首先你需要根据活动目标确定你的目标达成率,完成百分比,提升百分比。这是这次活动取得的成果,在一开始就写。如:本次活动 uv 24w(20w,↑ 20%),uv价值 3.6(3,↑ 20%)2、如果是发周报、月报之类的数据,接下来就应该是核心数据走势图在这张图里,要对每个数据的拐点做分析,比如图中11月7日、8日两天的uv价值有明显提升,这个的原因,要找到并写在报告里。...转载 2019-05-24 15:10:56 · 4594 阅读 · 0 评论 -
什么是大数定律?
目录1 小数定律2 什么是大数定律3 小数定律和大数定律的动态演示要理解大数定律,就必然先要理解小数定律。我会从下面3个方面聊聊:1)什么是小数定律?2)什么是大数定律?3)小数定律和大数定律的动态演示案例1 小数定律喜欢总结规律是人类的天性。例如,人们抱着娱乐或者认真的态度总结了世界杯足球赛的各种“定律”,其中比较著名的有“巴西队的礼物”。“巴西队的...转载 2019-03-31 20:27:04 · 21500 阅读 · 0 评论 -
中心极限定理的基本概念和应用场景
一、中心极限定理的基本概念中心极限定理是说:样本的平均值约等于总体的平均值。不管总体是什么分布,任意一个总体的样本平均值都会围绕在总体的整体平均值周围,并且呈正态分布。接下来,我们用通俗易懂的话来解读这个定理。假设有一个群体,如我们之前提到的清华毕业的人,我们对这类人群的收入感兴趣。怎么知道这群人的收入呢?我会做这样4步:第1步:随机抽取1个样本,求该样本的平均值。例如我...原创 2019-03-31 19:49:41 · 26194 阅读 · 4 评论 -
京东秋招数据分析对现有testfile文件内容求和
不定项选择题例题:现有testfile文件内容如下所示12122135434312312334对所有数字求和,以下做法正确的是:A. awk 'BEGIN{sum}{sum+$1}END{print sum}' testfileB. awk 'BEGIN{sum =0}{sum+=$1}END{print sum}' testfileC. awk '{sum+...原创 2019-03-12 20:15:47 · 393 阅读 · 0 评论 -
利用Pandas中pivot_table函数生成数据透视表
一、介绍也许大多数人都有在Excel中使用数据透视表的经历,其实Pandas也提供了一个类似的功能,名为pivot_table。虽然pivot_table非常有用,但是我发现为了格式化输出我所需要的内容,经常需要记住它的使用语法。所以,本文将重点解释pandas中的函数pivot_table,并教大家如何使用它来进行数据分析。如果你对这个概念不熟悉,wikipedia上对它做了详细的解释。...原创 2019-02-27 11:44:14 · 2288 阅读 · 1 评论 -
数据预处理之数据标准特征化
Standardization即标准化,尽量将数据转化为均值为零,方差为一的数据,形如标准正态分布(高斯分布)。实际中我们会忽略数据的分布情况,仅仅是通过改变均值来集中数据,然后将非连续特征除以他们的标准差。sklearn中 scale函数提供了简单快速的singlearray-like数据集操作。一、标准化,均值去除和按方差比例缩放(Standardization, or mean remo...原创 2019-03-02 13:30:46 · 992 阅读 · 0 评论 -
Sklearn-RandomForest随机森林参数及实例
本文转载至Sklearn-RandomForest随机森林参数及实例在scikit-learn中,RandomForest的分类类是RandomForestClassifier,回归类是RandomForestRegressor,需要调参的参数包括两部分,第一部分是Bagging框架的参数,第二部分是CART决策树的参数。sklearn官网地址(RandomForestClassifier...转载 2019-03-02 12:50:00 · 1260 阅读 · 0 评论 -
利用Python进行数据预处理
数据导入到python环境:http://pandas.pydata.org/pandas-docs/stable/io.html(英文版)IO Tools (Text, CSV, HDF5, ...)The pandas I/O API is a set of top level reader functions accessed like pd.read_csv() that gene...原创 2019-02-27 16:49:54 · 8602 阅读 · 0 评论 -
认识PV、UV、UV价值
PV(访问量):即Page View, 具体是指网站的是页面浏览量或者点击量。 UV(独立访客):即Unique Visitor,访问您网站的一台电脑客户端为一个访客。根据IP地址来区分访客数,在一段时间内重复访问,也算是一个UV。 UV价值 = 销售额 / 访客数。意思是每位访客带来多少销售额。 例如今天该宝贝的销售额为10000元,该宝贝有50个访客。就意味着...原创 2019-05-24 15:45:42 · 16645 阅读 · 0 评论