数据科学
文章平均质量分 93
主要包含:数据分析、大数据处理、数据可视化、数据算法、数据清洗、实战
主要编程语言:Python
ChenVast
有梦想,敢拼博,执着的走属于自己的路。无惧一切,勇往直前,做自己。成为一个伟大的人,改变世界。
Python软件基金会(PSF)成员,
国际数据管理协会(DAMA)会员
展开
-
数据中台的思考与总结
本文将总结下数据中台的相关理论知识。Flink平台化需要改进的点等等。参考:《数据中台》转载 2021-05-07 14:13:07 · 849 阅读 · 0 评论 -
建立数据目录的6个步骤
数据目录是所有数据的系统性列表,以表、文件、报告等形式存在于公司的各种源系统中。它的工作原理很像时装目录,但它没有详细介绍泳装或鞋子,而是从一家公司的ERP、人力资源、财务、电子商务系统以及社交媒体源获得信息。目录还显示了所有数据实体的位置。 数据目录包含关于每个数据片段的大量关键信息,比如数据的概要(关于数据的统计或信息摘要)、沿袭(数据如何生成)以及其他人对它的看法。目录是数据分析师、数据管理员、数据科学家和其他人员寻找和理解相关数据集以建立洞察、发现趋势和为公司确定新产品的切入点。转载 2021-05-07 09:32:32 · 6332 阅读 · 0 评论 -
【数据科学】数据治理与数据认责概述
一、本文预期读者:•企业领导• 各主要业务部门领导• 技术执行管理人员:在客户数据治理路线规划、设计和实施当中,需要资深的管理人员支持。• 数据管理相关部门:负责客户数据管理和监管报送相关的部门及其领导。• 业务部门主要用户:相关业务部门的主要用户,如:数据分析人员、超级用户、应用软件专业用户等。• BI 项目组:任何负责实施 BI 的项目开发团队,以及正在进行实...转载 2020-04-21 16:08:13 · 1605 阅读 · 0 评论 -
【数据科学】小数据治理靠“人工”,大数据治理靠“智能”
摘要本文把小数据和大数据的基本概念,小数据治理与大数据治理的范围、区别、方法及主要特征介绍比较清晰。(1)小数据治理靠“人工”,小数据的治理十五字方针:理数据、建标准、接数据、抓运营、重实效。(2)大数据治理靠“智能”,大数据治理的六字方针:采、存、管、看、找、用。一、什么是小数据治理谈小数据治理,首先说一说什么是小数据。在百度百科上我们可以查到小数据的定义是:“小数...转载 2020-04-21 16:06:25 · 1441 阅读 · 2 评论 -
【数据挖掘】如何做数据挖掘项目
笔者鼓励致力于从事数据行业的去参加一些人工智能,机器学习的培训,然后有人说:其实很多企业不喜欢培训出来的人,认为培训不贴近实际,纸上谈兵。我倒不这么看,其实即使在企业内干数据挖掘的人,很多也出不了活,这个不仅仅涉及业务和技术,更是管理上的问题。任正非说,华为最后能留下来的财富只有两样:一是管理框架、流程与组织支撑的管理体系;二是对人的管理和激励机制,什么是流程化组织,简单的说,就是基于流程...转载 2020-04-21 15:57:17 · 1417 阅读 · 0 评论 -
【中台】透过中台看数据中台
场景一:发生在上周周末,与一个公司的老板对话:开门见山的提了一个问题:“想问一个问题, 我想搞一个数据中台。”我惊了一下问到:“啥?搞数据中台?没烧坏吧?”“那想搞这个这个数据中台的目的是啥?是要支撑业务,还是在融资上搞啥?”“现在这个中台很火啊,我们也想搞一下。搞个数据中台、再搞个运营中台,未来面向 xxx 这个群体,就是一个 SaaS。”“你真有钱,其它中台不好说,但是数据...转载 2020-04-21 15:54:13 · 580 阅读 · 1 评论 -
【爬虫】封装了一些 python 爬虫技巧,开箱即用
这些脚本有一个共性,都是和web相关的,总要用到获取链接的一些方法,再加上simplecd这个半爬虫半网站的项目,累积不少爬虫抓站的经验,在此总结一下,那么以后做东西也就不用重复劳动了。目录1.最基本的抓站2.使用代理服务器3.需要登录的情况3.1 cookie的处理3.2 表单的处理3.3 伪装成浏览器访问3.4 反”反盗链”3.5 终极绝招4.多线程并发...转载 2020-04-21 15:45:23 · 751 阅读 · 1 评论 -
【数据科学】网易数据中台建设实践
数据中台无疑是今年大数据圈最火的名词,不仅是互联网企业,就连很多传统企业都参与到数据中台的建设中,基于数据提高企业运营效率。作为网易集团公共技术研发部门,网易杭州研究院在过去一年一直致力于数据中台支撑产品的研发,推动数据中台在网易电商、音乐、传媒等业务的落地。本文将结合网易数据中台的建设实践,对数据中台的定义、建设方法论以及落地价值进行深入探讨。数据中台是什么?从 Hadoop 集群的...转载 2020-01-15 15:32:28 · 739 阅读 · 0 评论 -
【推荐算法】图解抖音推荐算法
抖音推荐算法究竟如何是做抖音短视频运营的同学非常关心的问题,抖音官方并没有披露正式的算法,但凭借着民间的智慧和官方披露的部分信息中,网友已经总结出抖音推荐算法的秘密。这里整理资料如下:首先看短视频发布后抖音一般会进行的一系列推荐流程第0步:双重审核在抖音,每天有数量庞大的新作品上传,纯靠机器审核容易被钻空子,纯靠人工审核又不太现实。因此,双重审核成为抖音算法筛选视频内容的第...转载 2020-01-15 15:29:06 · 1317 阅读 · 0 评论 -
【Matplotlib】Matplotlib绘图实战
这个Matplotlib教程将指导您掌握Python数据可视化的基础知识:图解,pyplot和pylab等的解剖,等等人类是非常视觉的生物:当我们看到可视化的东西时,我们会更好地理解事物。然而,展示分析,结果或见解的步骤可能是一个瓶颈:您可能甚至不知道从哪里开始,或者您可能已经考虑了正确的格式,但随后会出现如下问题:“这是否正确显示我想带给我的观众?“肯定会出现在你的脑海里。当您使用Pyt...翻译 2018-05-19 20:06:35 · 2430 阅读 · 0 评论 -
【Matplotlib】Matplotlib 查看3D体积 实战
在这篇Python教程中,您将使用Matplotlib的事件处理程序API来显示MRI数据集的切片。 大多数人都熟悉用普通相机拍摄的图像数据(这些通常在科学文献中被称为“自然图像”),而且还用于显微镜或望远镜等专业仪器。在Python中处理图像时,最常见的显示方式是使用Python最流行的绘图库Matplotlib的imshow函数。在本教程中,我们将向您展示如何扩展此功能以显示3D体...翻译 2018-05-19 20:20:02 · 1724 阅读 · 1 评论 -
【数据可视化】Pandas画直方图
pandas.DataFrame.hist 使用函数:DataFrame.hist(column=None, by=None, grid=True, xlabelsize=None, xrot=None, ylabelsize=None, yrot=None, ax=None, sharex=False, sharey=False, figsize=None, layout=None,...原创 2018-08-10 16:16:43 · 43710 阅读 · 0 评论 -
【数据可视化】Pandas画散点图
pandas.DataFrame.plot.scatter 使用函数:DataFrame.plot.scatter(x, y, s=None, c=None, **kwds)功能:创建具有不同标记点大小和颜色的散点图。 每个点的坐标由两个数据帧列定义,实心圆用于表示每个点。这种图可用于查看两个变量之间的复杂相关性。点可以是例如自然2D坐标,例如地图中的经度和纬度,或者通常可以是...原创 2018-08-13 16:38:00 · 47073 阅读 · 0 评论 -
【数据可视化】Pandas画饼图
pandas.DataFrame.plot.pie使用函数:DataFrame.plot.pie(y=None, **kwds)功能:生成饼图。 饼图是一个列中数字数据的比例表示。这个函数封装了指定栏目的matplotlib.pyplot.pie()。如果没有传递列引用,而subplots=True则为每个数值列独立地绘制饼图。Parameters: y : in...原创 2018-08-13 16:50:32 · 28387 阅读 · 1 评论 -
【可视化】pandas与matplotlib绘制环形饼图
导入相关库import pandas as pdimport matplotlib.pyplot as plt% matplotlib inline 生产测试数据data = pd.DataFrame([[20,50,10,15],[30,30,20,40]],columns=['A','B','C','D'])数据: A B C D ...原创 2018-08-21 10:44:27 · 5265 阅读 · 0 评论 -
【可视化】使用matplotlib进行区域填充
效果图 matplotlib.pyplot.fill_between函数:matplotlib.pyplot.fill_between(x, y1, y2=0, where=None, interpolate=False, step=None, hold=None, data=None, **kwargs)效果:在两条水平曲线之间填充区域。曲线由点(x,y1)和(x...原创 2018-08-21 11:44:59 · 6814 阅读 · 0 评论 -
【可视化】15令人惊叹的数据可视化(以及您可以从中学到什么)
我们真的淹没在数据中。每天, 创建2.5个五分之一字节的数据。这相当于仅在过去两年中创造的世界信息的90%。现在这就是我们所说的“大数据”。但它来自哪里?无处不在,从传感器和社交媒体网站到数字图像和视频。我们拥有的数据比我们知道的更多,所以现在是时候组织并理解它了。这是数据可视化进入图片的地方。在等待我们的地震转移中,被一些人称为工业数据革命,我们必须更好,更有效地创建创新的数据可视化,...翻译 2018-08-23 10:19:12 · 1582 阅读 · 0 评论 -
【数据科学】5个数据讲故事技巧,用于创建更有说服力的图和表
使用数字通常不被认为是性感的工作。毕竟,会计和数据录入等职业并不是这个数字时代最激动人心的职业。但就像现在统治世界的曾经无耻的计算机爱好者一样,数据分析师目前被视为“就业市场的独角兽”。据LinkedIn称,能够理解大量混乱数据并在其中找到独特见解的能力是就业市场中最热门的技能之一。并且很容易理解为什么:自2013年以来创建的数据比在该日期之前的所有人类历史中创建的数据更多。因此,...翻译 2018-08-30 18:08:15 · 1499 阅读 · 0 评论 -
【可视化】Matplotlib V3.0版本上线了,新功能介绍
改进了默认的后端选择默认后端不再必须设置为构建过程的一部分。相反,在运行时,内置后端按顺序尝试,直到其中一个导入。无头linux服务器(由未定义的DISPLAY env标识)不会选择GUI后端。 循环色图添加了两个名为“twilight”和“twilight_shifted”的新色图。这些色彩图以相同的颜色开始和结束,并且具有两个对称的半部,具有相同的亮度,但是颜色发散。...翻译 2018-09-25 10:07:19 · 1112 阅读 · 0 评论 -
【可视化】Matplotlib类型图像的可选颜色
原创 2018-09-29 15:38:05 · 900 阅读 · 0 评论 -
【数据可视化】Python中使用Bokeh进行数据可视化,第一部分:入门
提升您的可视化游戏如果没有有效的方法来传达结果,最复杂的统计分析可能毫无意义。最近我在研究项目中的经验使我们利用数据科学来提高建筑能效,从而推动了这一点。在过去的几个月里,我的一个团队成员一直致力于一种称为小波变换的技术,该技术用于分析时间序列的频率成分。该方法取得了积极的成果,但她在解释它时遇到了麻烦而没有迷失在技术细节中。被激怒了,她问我是否可以通过视觉展示转变。在几分钟内使用一个名为...翻译 2018-10-30 09:33:59 · 3075 阅读 · 1 评论 -
【数据可视化】25个即时改进数据可视化设计的技巧
数据可视化不是关于显示数据; 它是以更容易理解的方式显示数据 - 这就是真正的价值所在。如果你想真正“看到”我们的意思,请看一下这个快速视频:视频地址:https://vimeo.com/29684853不幸的是,很多人认为将几张图表放在一起意味着您正在进行数据可视化设计。即使您对图表设计有一个很好的处理,如果您已经查看了我们的设计最常见的图表和图表的指南,那么您可以采取一些简单的...翻译 2018-11-01 09:19:51 · 1544 阅读 · 0 评论 -
【大数据】数据仓库维度建模入门
对数据分析越来越深入,越来越发现数据标准化的重要性,再高明的数据分析技术,没有规范统一的数据仓库,也是“巧妇难为无米之炊”。遂从头再对数据仓库技术进行一边梳理。 1. 维度建模理论概要1.1 维度设计的主要流程1.1.1 选择业务过程业务过程是组织完成的操作性活动,例如:获得订单、处理保险索赔、学生课程注册或每个月每个账单的快照等。业务过程事件建立或获取性能度量,并转换成事实表...转载 2018-07-25 09:56:18 · 1075 阅读 · 0 评论 -
【大数据】大数据知识体系大全
1 浅谈数据科学数据科学(Data Science)这一概念自大数据崛起也随之成为数据领域的讨论热点,从去年开始,“数据科学家”便成为了一个工作职位出现在各种招聘信息上。那么究竟什么是数据科学?大数据和数据科学又是什么关系?大数据在数据科学中起到怎样的作用?本文主要是想起到科普作用,使即将或正在从事数据工作的朋友对数据科学工作有一个全概貌了解,也使各有想法进入大数据领域的朋友在真正从事大数据工...转载 2018-07-25 10:03:42 · 4231 阅读 · 0 评论 -
【机器学习】评估机器学习的数据准备情况
公司的数据尚未准备好用于机器学习有五个常见原因。 1.数据无法访问显而易见的是,您需要实际拥有数据才能进行机器学习,但有些公司正面临着这个最初的障碍。他们知道他们想要解决的问题,但他们没有实际帮助他们解决问题的数据。一旦确定了要自动化的任务,首先要问自己的问题是数据是否存在于您的模型或自动化过程中。一个好的数据策略应该从数据清单开始。将其视为机器学习的原材料。如果您没有内部数据,则...翻译 2018-08-03 09:43:44 · 1684 阅读 · 0 评论 -
【数据科学】数据分析的思维训练
介绍让我们通过一个小练习开始本文。拿出笔和纸,写下你想到的答案。不要再思考两次了,你不应该花费超过15秒的时间来完成它。在本文中,请写下“成为一名成功的数据科学家需要哪些技能?”的答案。很多人都会编写编码,分析工具知识,统计数据等等。所有这些都是成功的数据科学家所必需的,但它们还不够。将优秀的分析师/数据科学家与坏人分开的最重要的技能之一是能够解决复杂问题,围绕它构建框架,简化假设...翻译 2018-08-09 10:17:16 · 1155 阅读 · 0 评论 -
【Pandas】快速入门pandas
本教程使用jupyter notebook进行,提供良好的交互式环境。通常,我们导入如下模块:In [1]: import pandas as pdIn [2]: import numpy as npIn [3]: import matplotlib.pyplot as plt 对象创建请参阅数据结构简介部分。创建一个Series通过传递值的列表,让大熊猫创建一个默认...原创 2018-08-10 09:23:37 · 1010 阅读 · 0 评论 -
【Pandas】修改Pandas的行或列的名字(重命名)
pandas.DataFrame.rename使用函数: DataFrame.rename(mapper=None, index=None, columns=None, axis=None, copy=True, inplace=False, level=None)功能:更改轴标签函数字典值必须是唯一的(1对1)。未包含在 字典/Series 中的标签将保留原样。列出的额外标签不会引...原创 2018-08-10 14:59:53 · 44847 阅读 · 0 评论 -
【可视化】Python使用Seaborn进行可视化
如何快速创建强大的探索性数据分析可视化一旦你有了一个很好的清理数据集,下一步就是探索性数据分析(EDA)。EDA是确定数据可以告诉我们什么的过程,我们使用EDA来查找模式,关系或异常,以便为我们的后续分析提供信息。虽然在EDA中使用的方法几乎绝大多数,但最有效的启动工具之一是对图(也称为散点图矩阵)。一对plot让我们看到了两个变量之间的单变量和关系的两个分布。配对图是识别后续分析趋势的好方法...翻译 2018-08-14 09:41:05 · 1618 阅读 · 0 评论 -
【数据预处理】pandas读取sql数据(支持百万条读取)
主要使用两个pandas方法:1、read_sql函数:pandas.read_sql(sql, con, index_col=None, coerce_float=True, params=None, parse_dates=None, columns=None, chunksize=None)效果:将SQL查询或数据库表读入DataFrame。 此功能是一个方便的包装和...原创 2018-08-14 18:14:51 · 31047 阅读 · 2 评论 -
【统计学】详解 A/B 测试
A / B测试目录什么是A/B 测试 A/B测试的工作原理 为什么要进行A/B测试? A/B测试过程 A/B测试SEO A/B测试实例 什么是A / B测试?A / B测试(也称为分割测试或桶测试)是一种将网页或应用程序的两个版本相互比较以确定哪个版本的性能更好的方法。AB测试本质上是一个实验,其中页面的两个或多个变体随机显示给用户,并且统计分析用于确定哪个变体对于给定...翻译 2018-08-15 11:22:02 · 13501 阅读 · 0 评论 -
【Pandas】基本数据结构(Series和DataFrame)
数据结构简介我们将首先快速,非全面地概述大熊猫中的基本数据结构,以帮助您入门。关于数据类型,索引和轴标记/对齐的基本行为适用于所有对象。首先,导入NumPy并将pandas加载到命名空间中:import numpy as npimport pandas as pd这是一个要记住的基本原则:数据对齐是固有的。除非您明确说明,否则标签和数据之间的链接不会被破坏。我们将简要介绍数据结...原创 2018-08-15 16:19:24 · 1903 阅读 · 0 评论 -
【数据分析】Python使用Dask Dataframes并行数据分析
有时你用Python的Pandas打开一个大数据集,尝试获得一些指标,整个事情只是可怕地冻结。如果您使用大数据,您知道如果您正在使用Pandas,那么您可以等待一小段时间来获得一个简单的系列平均值,让我们甚至不会调用apply。这只是几百万行!当你达到数十亿美元时,你最好开始使用Spark或其他东西。我不久前发现了这个工具:一种加速Python数据分析的方法,无需获得更好的基础设施或切换语言...翻译 2018-08-27 16:35:28 · 13066 阅读 · 4 评论 -
【数据科学】如何试图说服数据?
您的观众可以成为您的朋友或敌人当您正在进行数据分析并试图找出故事情节的情节时?在您说服观众了解您惊人的发现时,请记住以下三个提示。 提示1:考虑您的受众关心的内容琪琪玩邪恶的Mousy-Mouse玩具在我告诉你这个故事的其余部分之前,我想提一下我多么崇拜我的猫Kiki。在阅读一篇文章的同时考虑我的反应,该文章引用了一些关于每年有多少鸣禽,啮齿动物等被杀死的统计数据......你...翻译 2018-08-30 10:07:26 · 900 阅读 · 0 评论 -
【数据科学】7种数据类型:思考机器学习数据类型的更好方法
目录目前的状态史蒂文斯的测量类型学7种机器学习的主要数据类型1.无用的2.形同虚设3.序数4.二进制5.计数6.时间7.间隔这些是正确的七个类别吗?我如何记住这7种数据类型?更新2018年12月7日:我将如何记住这7个 - 制作11 - 数据类型?我应该传播有关7种数据类型的信息吗?在本文中,我为机器学习从业者提出了一种更有用的...翻译 2018-08-30 18:14:26 · 5485 阅读 · 0 评论 -
【数据预处理】如何处理丢失的数据
“归罪的概念既诱人又危险”(RJA Little&DB Rubin) 我在数据清理/探索性分析中遇到的最常见问题之一是处理缺失值。首先,要了解没有好的方法来处理缺失的数据。我根据问题的类型遇到了不同的数据插补解决方案 - 时间序列分析,ML,回归等,很难提供一般解决方案。在这篇博客中,我试图总结最常用的方法并尝试找到结构解决方案。 插补与删除数据在跳转到数据插补方法之前,我们必...翻译 2018-09-03 16:11:08 · 4792 阅读 · 0 评论 -
【数据预处理】Pandas缺失的数据处理
目录缺少数据基础何时/为何 数据丢失?被视为“缺失”的值日期时间插入缺失数据缺少数据的计算Sum/Prod of Empties/NansGroupBy中的NA值清理/填写缺失数据填充缺失值:fillna用PandasObject填充删除轴标签缺少数据:dropna 插值插值限制替换通用值字符串/正则表达式替换数字替换缺少数据...原创 2018-09-05 16:11:59 · 4222 阅读 · 1 评论 -
【Pandas】Pandas的时间与日期
注意:重要且关键章节已标星目录概述时间戳与时间跨度转换为时间戳提供格式参数(指定时间格式)*从多个DataFrame列组装日期时间无效数据纪元时间戳从时间戳到纪元使用origin参数生成时间戳范围自定义频率范围时间戳限制索引部分字符串索引切片与精确匹配精确索引截断和花式索引时间/日期组件DateOffset对象(时...原创 2018-09-18 11:57:53 · 10279 阅读 · 2 评论 -
【Pandas】Pandas处理本文数据
目录使用文本数据拆分和替换字符串连接将单个系列连接成字符串将系列和类似列表连接成一个系列将系列和类似数组的类连接成一个系列将系列和索引对象连接成一个系列,具有对齐将一系列和多个对象连接成一个系列索引与.str提取子字符串提取每个主题的第一场比赛(摘录)提取每个主题的所有匹配(extractall)测试匹配或包含模式的字符串创建指标变量方法...原创 2018-09-18 14:44:22 · 1226 阅读 · 0 评论 -
【Pandas】Pandas求某列字符串的长度,总结经验教训
测试集大小:test.shape(898, 11) 对某列的字符串做统计长度1、for遍历法:start = time.time()for i in test.index.values: test.loc[i,'contentLen1'] = len(test.loc[i,'content'])time.time() - start 47.162380...原创 2018-09-18 15:30:30 · 27153 阅读 · 0 评论