![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Big Data Analysis
文章平均质量分 96
ChenVast
有梦想,敢拼博,执着的走属于自己的路。无惧一切,勇往直前,做自己。成为一个伟大的人,改变世界。
Python软件基金会(PSF)成员,
国际数据管理协会(DAMA)会员
展开
-
【运营数据分析】运营数据分析怎么做?建立运营数据分析思维
对于运营数据分析,我相信很多小伙伴会存在以下问题:面对异常数据经常出现“好像做了什么?好像发生了什么?所以可能造成了影响”的主观臆测?面对数据报表,不知道该怎么分析?不知道该分析什么?数据分析作为运营最基础的一项技能,你是否真正的将其价值发挥出来,合格的运营一定是数据驱动运营,而非运营驱动数据!1、从单一维度到体系化的思考,是做数据分析必须做出的转变!对于数据分析你需要有体系化的数...转载 2019-11-15 15:44:42 · 5732 阅读 · 0 评论 -
【大数据】数据中台是怎样炼成的?
“中台”战略在国内最初起源于阿里巴巴、华为等大型企业,在中台的基础上又分为业务中台、数据中台,目标都是把一些通用能力抽象到中台提供,达到资源复用以及快速适应前台业务变化的目的。数据中台,将数据业务化,来供业务中台和前台业务系统调用,原来缓慢的调用,变成了毫秒级别的快速反馈。数据中台这场风,一下子就席卷了大数据行业的各个角落。很多不同类型的公司都声称自己可以搭建数据中台或是数据中台的一部分。...转载 2019-11-06 09:03:15 · 579 阅读 · 0 评论 -
【大数据】InfoWorld的2018年最佳开源数据平台奖公布
目录Apache SparkApache PulsarApache BeamApache SolrJupyterLabKNIME分析平台CockroachDBVitessTiDBYugaByte DBNeo4jInfluxDB Apache Spark尽管新的产品层出不穷,Apache Spark在数据分析领域仍然占据着举足轻重的...翻译 2018-10-15 15:26:13 · 1768 阅读 · 0 评论 -
【数据科学】进行数据分析之前的70个问题
进行数据分析前的70个问题,这些问题能让数据分析项目更加完善以及更加健壮。抱有强烈目的性才能做出好的数据分析项目,目的不明确,项目结果也是失败的。学会提出问题,讨论并解决问题。目录提出问题组织对话采集数据分析数据解读数据采取措施监控结果 提出问题通过本次数据分析想知道什么? 要评测和监控哪些内容? 关于数据,有哪些要问的问题? 预期的分...翻译 2018-10-15 09:45:14 · 362 阅读 · 0 评论 -
【Pandas】数据合并和连接
pandas提供了各种工具,可以在连接/合并类型操作的情况下,轻松地将Series,DataFrame和Panel对象与索引和关系代数功能的各种设置逻辑组合在一起。目录连接对象在其他轴上设置逻辑连接使用append忽略连接轴上的索引与混合ndims连接更多与组密钥连接行追加到数据帧数据库风格的DataFrame加入/合并关于合并方法(关系代数)的简要介绍...原创 2018-10-08 17:28:46 · 1559 阅读 · 0 评论 -
【推荐系统】使用神经网络嵌入构建推荐系统
如何使用深度学习和维基百科来创建图书推荐系统深度学习可以做一些令人难以置信的事情,但通常在学术论文中使用模糊或者只需要大公司可用的计算资源。尽管如此,深度学习的应用可以在没有高级学位的个人计算机上完成。在本文中,我们将看到如何使用神经网络嵌入来创建书籍推荐系统,使用书籍上的所有维基百科文章。我们的推荐系统将基于链接到类似维基百科页面的书籍彼此相似的想法。我们可以通过使用神经网络学习书籍...翻译 2018-10-12 10:54:27 · 1743 阅读 · 0 评论 -
【数据科学】肯德尔等级相关系数( Kendall's tau coefficient )
在统计学中,Kendall等级相关系数,通常称为Kendall的tau系数(在希腊字母τ之后),是用于测量两个测量量之间的序数关联的统计量。甲tau蛋白测试是一种非参数假设检验用于基于所述tau蛋白系数统计依赖性。它是衡量等级相关:数据的排序的相似度时排名由每个量。它以1938年开发的莫里斯·肯德尔命名,尽管古斯塔夫·费希纳在1897年的时间序列背景下提出了类似的措施。直观地说,两个变量之...原创 2018-10-12 10:37:50 · 55493 阅读 · 0 评论 -
【异常检测算法】隔离森林(Isolation Forest)算法
南大周志华老师在2010年提出一个异常检测算法Isolation Forest,在工业界很实用,算法效果好,时间效率高,能有效处理高维数据和海量数据,这里对这个算法进行简要总结。iTree 提到森林,自然少不了树,毕竟森林都是由树构成的,看Isolation Forest(简称iForest)前,我们先来看看Isolation Tree(简称iTree)是怎么构成的,iTree是一种随机...转载 2018-09-27 14:55:41 · 10043 阅读 · 4 评论 -
【数据异常】异常检测方法
1.在线流数据异常检测(iforest隔离森林算法)该方法的主要思想是,通过随机选定样本属性及其值将样本空间进行随机划分,分割的过程可以看成类似于随机森林中树建立的过程,对于新的样本,基于建立的隔离树求其分割深度,深度值越小,表明越容易被隔离,也就意味着异常的概率越大;反之则为正常样本。该方法是基于异常数据“少且不同”的特征,来采用随机隔离的思想设计异常检查。该方法的主要优点是,在构建初始...转载 2018-09-27 14:45:04 · 6966 阅读 · 0 评论 -
【数据科学】斯皮尔曼的等级相关系数(Spearman's coefficient)
在统计数据中,斯皮尔曼的等级相关系数或斯皮尔曼的rho,以查尔斯斯皮尔曼命名并经常用希腊字母表示或,是秩相关的非参数度量(两个变量的排名之间的统计依赖性)。它评估了使用单调函数描述两个变量之间关系的程度。两个变量之间的Spearman相关性等于这两个变量的秩值之间的Pearson相关性 ; 当Pearson的相关性评估线性关系时,Spearman的相关性评估单调关系(无论是线性的还是非线性关系...原创 2018-10-12 10:25:01 · 50174 阅读 · 5 评论 -
【数据科学】开始数据分析之前要问的20个问题
在开始数据分析之前,提出正确的问题和/或理解问题至关重要。以下是在深入分析之前需要提出的20个问题的列表:谁将使用分析结果的受众?(董事会成员,销售人员,客户,员工等) 如何使用结果?(做出业务决策,投资产品类别,与供应商合作,识别风险等) 观众对我们的分析有什么问题?(能够过滤关键细分,跨时间查看数据以识别趋势,深入细节等) 如何优先考虑问题以获得最大价值? 确定关键利益相关者并...翻译 2018-10-12 09:07:19 · 423 阅读 · 0 评论 -
【数据异常校验】Scikit-learn实现局部异常因子(LOF)的无监督异常值检测
每个样本的异常分数称为局部异常因子。它测量给定样本相对于其邻居的密度的局部偏差。它是局部的,异常得分取决于物体相对于周围邻域的隔离程度。更确切地说,局部性由k近邻给出,其距离用于估计局部密度。通过将样本的局部密度与其邻居的局部密度进行比较,可以识别密度明显低于其邻居的样本。这些被认为是异常值。局部异常因子(LOF)算法是一种无监督的异常检测方法,它计算给定数据点相对于其邻居的局部密度偏差...翻译 2018-09-27 11:43:33 · 8655 阅读 · 1 评论 -
【数据异常校验】Scikit-learn实现隔离森林(Isolation Forest)算法进行异常值检测
目录算法类方法实践案例1:多种异常检测算法比较代码案例2使用Isolation Forest算法返回每个样本的异常分数Isolation Forest通过随机选择一个特征然后随机选择所选特征的最大值和最小值之间的分割值来“隔离”观察结果。由于递归分区可以由树结构表示,因此隔离样本所需的分割数等于从根节点到终止节点的路径长度。这种随机树林的平均路径长度是衡量正...翻译 2018-09-27 11:17:28 · 21257 阅读 · 7 评论 -
【数据分析】电商平台数据分析
目录电商模式年度重复购买率转化率年均购买率购物车大小弃买率客户获取成本平均每位客户营收关键词和搜索词推荐接受率病毒性邮件列表点入率线下线上相结合运送时间库存可供率图解电子商务 电商模式年度重复购买率用户获取模式:90天内重复购买率达到1%-15% 混合模式:90天内重复购买率达到15%-30% 忠诚度模式:90...原创 2018-10-31 09:43:27 · 2496 阅读 · 1 评论 -
【数据处理】pandas数据处理优化方法小结
数据处理时使用最多的就是pandas库,pandas在数据处理方面很强大,集成了数据处理和数据可视化。pandas的可视化使用的是matplotlib。 回到主题问题1:计算数据的某个字段的所有值,对其字段所有值进行运算处理的字段数据为时间戳,需要计算该时间戳距离现在的时间,单位为天。 一般方法:使用现在的时间戳减去整个字段的值,得到距离现在的秒数,最后换算成天...原创 2018-10-24 10:18:05 · 556 阅读 · 0 评论 -
【数据可视化】10个免费工具,可以轻松,随时的开始使用数据可视化
使用这些简单直观的工具直接进入数据可视化过程。不要只是简单地显示数据,用它来讲述故事!目录1.数据包装器处理2. RAWGraphs处理3.Charted处理4.Chart Studio处理5. Fastcharts处理6.Palladio处理7. Openheatmap处理8. MyHeatMap处理9. Ch...翻译 2019-08-07 17:20:47 · 1122 阅读 · 0 评论 -
【大数据】数据湖正在成为新的数据仓库
像AWS Lake Formation和Delta Lake这样的平台指向了一个中央枢纽,用于决策支持和AI驱动的决策自动化数据仓库是否再次相关,或者它们是一个垂死的品种?如果你在这个问题上有点困惑,你会被原谅。一方面,数据仓库肯定似乎处于热门阶段。作为一个长期的行业观察者,我看到了连续创新和创业活动浪潮的行业激增。这种趋势基本上始于十年前设备外形进入数据仓库主流,然后随着市场向新...翻译 2019-08-07 17:16:01 · 586 阅读 · 0 评论 -
【数据分析】数据分析常用术语
一、互联网常用名词解释1、PV(Page View)页面浏览量指某段时间内访问网站或某一页面的用户的总数量,通常用来衡量一篇文章或一次活动带来的流量效果,也是评价网站日常流量数据的重要指标。PV可重复累计,以用户访问网站作为统计依据,用户每刷新一次即重新计算一次。2、UV(Unique Visitor)独立访客指来到网站或页面的用户总数,这个用户是独立的,同一用户不同时段访问网站只...转载 2019-08-07 17:10:11 · 1084 阅读 · 0 评论 -
【数据分析】15组Excel函数,解决数据分析中80%的难题!
函数是excel中最重要的分析工具,面对400多个excel函数新手应该从哪里入手呢?下面是实际工作中最常用的15个(组)函数,学会后工作中的excel难题基本上都能解决了。01 IF函数用途:根据条件进行判断用法:=IF(判断条件,条件成立返回的值,条件不成立返回的值)=IF(AND(条件1,条件2), 两个条件同时成立返回的值,不成立返回的值)=...转载 2019-06-24 09:03:34 · 888 阅读 · 0 评论 -
【pandas】pandas的文件读取方法 read_csv
pandas.read_csv(filepath_or_buffer,sep=',',delimiter=None,header='infer',names=None,index_col=None,usecols=None,squeeze=False,prefix=None,mangle_dupe_cols=True,dtype=None,engine=None,conv...翻译 2019-05-13 16:22:16 · 2437 阅读 · 0 评论 -
【Pandas】Pandas处理大数据集的方法(内存优化,减少内存使用量90%)
目录将内存使用量减少高达90%的方法使用棒球比赛日志数据帧的内部表示了解子类型使用子类型优化数值列将Numeric与String存储进行比较使用分类优化对象类型读取数据时选择类型分析棒球比赛总结和后续步骤 将内存使用量减少高达90%的方法当使用具有小数据(小于100兆字节)的pandas时,性能很少成为问题。当我们迁移到更大的数据(100兆字节到...翻译 2019-01-21 11:09:53 · 7686 阅读 · 0 评论 -
【Pandas ERROR】 ValueError: cannot convert float NaN to integer
报错语句data['col'] = data['col'].apply(int) 报错提示ValueError: cannot convert float NaN to integer 报错原因因为字段中存在NaN值,所以无法转换为指定类型 解决办法剔除该字段中的NaN值所在的行 具体可参考(需要科学上网):https://stackover...原创 2018-12-26 15:38:42 · 12753 阅读 · 0 评论 -
【Pandas】Pandas数据分类
分类是与统计中的分类变量对应的pandas数据类型。分类变量采用有限的,通常是固定的可能值(类别 ; R中的级别)。例如性别,社会阶层,血型,国家归属,观察时间或通过李克特量表评级。与统计分类变量相比,分类数据可能有一个顺序(例如“强烈同意”与“同意”或“第一次观察”与“第二次观察”),但数值运算(加法,除法......)是不可能的。分类数据的所有值都是类别或np.nan。顺序由类别的顺序...原创 2018-11-02 11:47:13 · 7892 阅读 · 0 评论 -
【数据分析】数据指标
目录什么是好的数据指标?找出正确的数据指标的五点方法1、定性指标与量化指标2、虚荣指标与可付诸行动的指标3、探索性指标与报告性指标4、先见性指标与后见性指标5、相关性指标与因果性指标市场细分、同期群分析、AB测试和多变量分析市场细分同期群分析AB和多变量测试数据分析周期数据科学家的思维方式(模式),10条创业者需要避免的数据圈套:数据分析框...原创 2018-10-30 18:12:36 · 5785 阅读 · 0 评论 -
【数据分析】电商平台应该分析哪些数据?
首先要构建电商数据分析的基本指标体系,主要分为8个类指标目录1. 总体运营指标2.网站流量指标3. 销售转化指标4. 客户价值指标5.商品类指标6. 市场营销活动指标7. 风控类指标8. 市场竞争指标 1. 总体运营指标从流量、订单、总体销售业绩、整体指标进行把控,起码对运营的电商平台有个大致了解,到底运营的怎么样,是亏是赚。2....转载 2018-10-30 14:32:34 · 7808 阅读 · 0 评论 -
【Pandas】Pandas分组:结合切割和应用
通过“分组依据”,我们指的是涉及以下一个或多个步骤的过程:根据某些标准将数据拆分为组。将功能独立应用于每个组。将结果组合到数据结构中。其中,分割步骤是最直接的。实际上,在许多情况下,我们可能希望将数据集拆分成组并对这些组执行某些操作。应用步骤:聚合:计算每个组的摘要统计(或统计)转换:执行一些特定于组的计算并返回类似索引的对象过滤:根据评估True或False的分组计算丢弃一些组原创 2018-10-30 10:18:33 · 3574 阅读 · 0 评论 -
【数据科学】使用Python建立你的数据处理肌肉记忆
数据预处理流程 在搜索语法时,您是否因为破坏数据分析流而感到沮丧?为什么你在第三次查找之后仍然不记得它?这是因为你还没有足够的练习来为它建立肌肉记忆。现在,想象一下,当您编写代码时,Python语法和函数会根据您的分析思路从指尖飞出。那太棒了!本教程旨在帮助您实现目标。我建议每天早上练习这个剧本10分钟,并重复一个星期。这就像每天做一些小小的仰卧起坐 - 不是为了你的腹肌,而是...翻译 2018-10-24 10:48:08 · 726 阅读 · 0 评论 -
【EXCEL】36个excel技巧、50个快捷键
目录8大基本统计函数生活密切相关的7大技巧8个转换技巧6大合并技巧7大日期时间转换技巧数字格式转换显示系统时间或日期隐藏行或列选择数据显示对话框编辑数据8大基本统计函数生活密切相关的7大技巧8个转换技巧6大合并技巧7大日期时间转换技巧数字格式转换显示系统时间或日...翻译 2018-09-27 10:28:05 · 3182 阅读 · 0 评论 -
【数据科学】如何锐化你的数据直觉
随着机器学习和人工智能研究的最新进展,这些天定期成为头条新闻,数据科学已经成为一个真正的主流兴趣领域,这一点不足为奇。对于具有分析意识的人来说,这无疑是一个很好的职业选择,需要扎实的编程技巧和深入的技术知识。然而,在显示窃取神经网络和分布式计算的行为背后是一些基本的统计实践,每个有抱负的数据科学家应该非常熟悉。您可以阅读特定项目所需的最新编程框架或科学文献的进展。但是,没有捷径可以获得...翻译 2018-09-27 10:18:51 · 1141 阅读 · 0 评论 -
【数据科学】如何试图说服数据?
您的观众可以成为您的朋友或敌人当您正在进行数据分析并试图找出故事情节的情节时?在您说服观众了解您惊人的发现时,请记住以下三个提示。 提示1:考虑您的受众关心的内容琪琪玩邪恶的Mousy-Mouse玩具在我告诉你这个故事的其余部分之前,我想提一下我多么崇拜我的猫Kiki。在阅读一篇文章的同时考虑我的反应,该文章引用了一些关于每年有多少鸣禽,啮齿动物等被杀死的统计数据......你...翻译 2018-08-30 10:07:26 · 888 阅读 · 0 评论 -
【数据科学】7种数据类型:思考机器学习数据类型的更好方法
目录目前的状态史蒂文斯的测量类型学7种机器学习的主要数据类型1.无用的2.形同虚设3.序数4.二进制5.计数6.时间7.间隔这些是正确的七个类别吗?我如何记住这7种数据类型?更新2018年12月7日:我将如何记住这7个 - 制作11 - 数据类型?我应该传播有关7种数据类型的信息吗?在本文中,我为机器学习从业者提出了一种更有用的...翻译 2018-08-30 18:14:26 · 5121 阅读 · 0 评论 -
【数据分析】Python使用Dask Dataframes并行数据分析
有时你用Python的Pandas打开一个大数据集,尝试获得一些指标,整个事情只是可怕地冻结。如果您使用大数据,您知道如果您正在使用Pandas,那么您可以等待一小段时间来获得一个简单的系列平均值,让我们甚至不会调用apply。这只是几百万行!当你达到数十亿美元时,你最好开始使用Spark或其他东西。我不久前发现了这个工具:一种加速Python数据分析的方法,无需获得更好的基础设施或切换语言...翻译 2018-08-27 16:35:28 · 12849 阅读 · 4 评论 -
【Pandas】基本数据结构(Series和DataFrame)
数据结构简介我们将首先快速,非全面地概述大熊猫中的基本数据结构,以帮助您入门。关于数据类型,索引和轴标记/对齐的基本行为适用于所有对象。首先,导入NumPy并将pandas加载到命名空间中:import numpy as npimport pandas as pd这是一个要记住的基本原则:数据对齐是固有的。除非您明确说明,否则标签和数据之间的链接不会被破坏。我们将简要介绍数据结...原创 2018-08-15 16:19:24 · 1892 阅读 · 0 评论 -
【统计学】详解 A/B 测试
A / B测试目录什么是A/B 测试 A/B测试的工作原理 为什么要进行A/B测试? A/B测试过程 A/B测试SEO A/B测试实例 什么是A / B测试?A / B测试(也称为分割测试或桶测试)是一种将网页或应用程序的两个版本相互比较以确定哪个版本的性能更好的方法。AB测试本质上是一个实验,其中页面的两个或多个变体随机显示给用户,并且统计分析用于确定哪个变体对于给定...翻译 2018-08-15 11:22:02 · 13372 阅读 · 0 评论 -
【机器学习】评估机器学习的数据准备情况
公司的数据尚未准备好用于机器学习有五个常见原因。 1.数据无法访问显而易见的是,您需要实际拥有数据才能进行机器学习,但有些公司正面临着这个最初的障碍。他们知道他们想要解决的问题,但他们没有实际帮助他们解决问题的数据。一旦确定了要自动化的任务,首先要问自己的问题是数据是否存在于您的模型或自动化过程中。一个好的数据策略应该从数据清单开始。将其视为机器学习的原材料。如果您没有内部数据,则...翻译 2018-08-03 09:43:44 · 1669 阅读 · 0 评论 -
【数据预处理】pandas读取sql数据(支持百万条读取)
主要使用两个pandas方法:1、read_sql函数:pandas.read_sql(sql, con, index_col=None, coerce_float=True, params=None, parse_dates=None, columns=None, chunksize=None)效果:将SQL查询或数据库表读入DataFrame。 此功能是一个方便的包装和...原创 2018-08-14 18:14:51 · 30522 阅读 · 2 评论 -
【可视化】Python使用Seaborn进行可视化
如何快速创建强大的探索性数据分析可视化一旦你有了一个很好的清理数据集,下一步就是探索性数据分析(EDA)。EDA是确定数据可以告诉我们什么的过程,我们使用EDA来查找模式,关系或异常,以便为我们的后续分析提供信息。虽然在EDA中使用的方法几乎绝大多数,但最有效的启动工具之一是对图(也称为散点图矩阵)。一对plot让我们看到了两个变量之间的单变量和关系的两个分布。配对图是识别后续分析趋势的好方法...翻译 2018-08-14 09:41:05 · 1601 阅读 · 0 评论 -
【Pandas】修改Pandas的行或列的名字(重命名)
pandas.DataFrame.rename使用函数: DataFrame.rename(mapper=None, index=None, columns=None, axis=None, copy=True, inplace=False, level=None)功能:更改轴标签函数字典值必须是唯一的(1对1)。未包含在 字典/Series 中的标签将保留原样。列出的额外标签不会引...原创 2018-08-10 14:59:53 · 44704 阅读 · 0 评论 -
【Pandas】快速入门pandas
本教程使用jupyter notebook进行,提供良好的交互式环境。通常,我们导入如下模块:In [1]: import pandas as pdIn [2]: import numpy as npIn [3]: import matplotlib.pyplot as plt 对象创建请参阅数据结构简介部分。创建一个Series通过传递值的列表,让大熊猫创建一个默认...原创 2018-08-10 09:23:37 · 998 阅读 · 0 评论 -
【数据科学】数据分析的思维训练
介绍让我们通过一个小练习开始本文。拿出笔和纸,写下你想到的答案。不要再思考两次了,你不应该花费超过15秒的时间来完成它。在本文中,请写下“成为一名成功的数据科学家需要哪些技能?”的答案。很多人都会编写编码,分析工具知识,统计数据等等。所有这些都是成功的数据科学家所必需的,但它们还不够。将优秀的分析师/数据科学家与坏人分开的最重要的技能之一是能够解决复杂问题,围绕它构建框架,简化假设...翻译 2018-08-09 10:17:16 · 1114 阅读 · 0 评论