自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

探索世界,改变世界

善于分享知识,勤于探索知识,知识就是力量。

转载 【数据科学】数据治理与数据认责概述

一、本文预期读者: •企业领导 • 各主要业务部门领导 • 技术执行管理人员:在客户数据治理路线规划、设计和实施当中,需要资 深的管理人员支持。 • 数据管理相关部门:负责客户数据管理和监管报送相关的部门及其领导。 • 业务部门主要用户:相关业务部门的主要用户,如:数据分析人员、超级 ...

2020-04-21 16:08:13 186 0

转载 【数据科学】小数据治理靠“人工”,大数据治理靠“智能”

摘要 本文把小数据和大数据的基本概念,小数据治理与大数据治理的范围、区别、方法及主要特征介绍比较清晰。 (1)小数据治理靠“人工”,小数据的治理十五字方针:理数据、建标准、接数据、抓运营、重实效。 (2)大数据治理靠“智能”,大数据治理的六字方针:采、存、管、看、找、用。 一、什么是...

2020-04-21 16:06:25 585 0

转载 【数据挖掘】如何做数据挖掘项目

笔者鼓励致力于从事数据行业的去参加一些人工智能,机器学习的培训,然后有人说:其实很多企业不喜欢培训出来的人,认为培训不贴近实际,纸上谈兵。 我倒不这么看,其实即使在企业内干数据挖掘的人,很多也出不了活,这个不仅仅涉及业务和技术,更是管理上的问题。 任正非说,华为最后能留下来的财富只有两样:一是...

2020-04-21 15:57:17 159 0

转载 【中台】透过中台看数据中台

场景一: 发生在上周周末,与一个公司的老板对话: 开门见山的提了一个问题:“想问一个问题, 我想搞一个数据中台。”我惊了一下问到:“啥?搞数据中台?没烧坏吧?” “那想搞这个这个数据中台的目的是啥?是要支撑业务,还是在融资上搞啥?” “现在这个中台很火啊,我们也想搞一下。搞个数据中台、再搞...

2020-04-21 15:54:13 141 0

转载 图解抖音推荐算法

抖音推荐算法究竟如何是做抖音短视频运营的同学非常关心的问题,抖音官方并没有披露正式的算法,但凭借着民间的智慧和官方披露的部分信息中,网友已经总结出抖音推荐算法的秘密。这里整理资料如下: 首先看短视频发布后抖音一般会进行的一系列推荐流程 第0步:双重审核 在抖音,每天有数量庞大的新...

2020-04-21 15:52:01 170 0

转载 【爬虫】封装了一些 python 爬虫技巧,开箱即用

这些脚本有一个共性,都是和web相关的,总要用到获取链接的一些方法,再加上simplecd这个半爬虫半网站的项目,累积不少爬虫抓站的经验,在此总结一下,那么以后做东西也就不用重复劳动了。 目录 1.最基本的抓站 2.使用代理服务器 3.需要登录的情况 3.1 cookie的处理 3.2...

2020-04-21 15:45:23 74 0

转载 【项目管理】项目管理49个过程(长图)

2020-04-21 15:37:46 71 0

转载 【数据科学】网易数据中台建设实践

数据中台无疑是今年大数据圈最火的名词,不仅是互联网企业,就连很多传统企业都参与到数据中台的建设中,基于数据提高企业运营效率。作为网易集团公共技术研发部门,网易杭州研究院在过去一年一直致力于数据中台支撑产品的研发,推动数据中台在网易电商、音乐、传媒等业务的落地。本文将结合网易数据中台的建设实践,对数...

2020-01-15 15:32:28 345 0

转载 【推荐算法】图解抖音推荐算法

抖音推荐算法究竟如何是做抖音短视频运营的同学非常关心的问题,抖音官方并没有披露正式的算法,但凭借着民间的智慧和官方披露的部分信息中,网友已经总结出抖音推荐算法的秘密。这里整理资料如下: 首先看短视频发布后抖音一般会进行的一系列推荐流程 第0步:双重审核 在抖音,每天有数量庞大的新作品...

2020-01-15 15:29:06 285 0

翻译 【Python】python的四种高性能数据类型,助你优化代码、简洁任务

Python 的最大优势之一就是它有各种各样的模块和软件包可供选择。这些模块和包将 Python 的功能扩展到了许多流行领域,包括机器学习、数据科学、Web 开发和前端等。其中表现最好的一个就是 Python 内置的 collections 模块了。 一般而言,Python 中的 colle...

2019-11-15 15:48:32 108 0

转载 【运营数据分析】运营数据分析怎么做?建立运营数据分析思维

对于运营数据分析,我相信很多小伙伴会存在以下问题: 面对异常数据经常出现“好像做了什么?好像发生了什么?所以可能造成了影响”的主观臆测? 面对数据报表,不知道该怎么分析?不知道该分析什么? 数据分析作为运营最基础的一项技能,你是否真正的将其价值发挥出来,合格的运营一定是数据驱动运营,而非运营...

2019-11-15 15:44:42 147 0

原创 【项目管理】项目是怎么轻易的死去?(提供建议和看法)

一共为10点原因导致项目终结。 一、定制了不可到达的目标(靠想象力做事的人经常犯) 为了高大上,为了领导,为了脸面,忽悠甲方,往往会定制过高的目标。以至于未能完成,或延期。 这样的案例很多,经常是产品经理的需求过于不切实际,忽略团队实力和技术,一意孤行。 建议 产品经理不要用想...

2019-11-15 15:37:28 100 0

翻译 【Python】Python代码自动补全神器 Kite

我们很高兴与您分享智能片段,我们的最新功能旨在使您的完成体验更加无缝。Kite的智能代码段使您可以在键入时生成与上下文相关的代码段,从而轻松完成复杂的多令牌语句。典型的代码段必须事先手动定义,而Kite的智能代码段则是根据Kite在您的代码库中发现的代码模式实时生成的。 TL; DR 适用...

2019-11-06 09:08:25 2421 0

转载 【大数据】数据中台是怎样炼成的?

“中台”战略在国内最初起源于阿里巴巴、华为等大型企业,在中台的基础上又分为业务中台、数据中台,目标都是把一些通用能力抽象到中台提供,达到资源复用以及快速适应前台业务变化的目的。数据中台,将数据业务化,来供业务中台和前台业务系统调用,原来缓慢的调用,变成了毫秒级别的快速反馈。 数据中台这场风,一下...

2019-11-06 09:03:15 160 0

转载 【数据科学】传统企业数据中台建设与思考

前言 在当前数字经济领域最受关注的技术趋势当属中台,这一概念由阿里提出,并迅速在众多互联网企业中传播和应用,今年以传统企业也将目光关注于此,并着手引入数据中台相关产品。然而,数据中台目前仍未有一个准确而统一的定义,对于数据中台是什么、能干什么、怎么实现,各行各业仍需结合实践去探索。 一 ...

2019-09-25 10:18:34 102 0

转载 【数据分析】如何在企业中从0-1建立一个数据/商业分析部门

前言 知乎上有个问题:如何从0-1建立一个数据部门 背景:国内大型集团,非互联网。高层有想法建立一个数据部门支持企业的精细化运营,我想了解下一个数据部门如何从0-1建立呢?并且“建立成功”的指标是什么。 目录 一 背景说明 二从0-1搭建一个数据分析部门步骤和框架 1)第一步:定...

2019-09-25 10:16:31 404 0

翻译 【数据科学】数据可视化指南

数据可视化以图形形式描述信息。 原则 数据可视化是一种通信形式,它以图形形式描绘密集和复杂的信息。最终的视觉效果旨在简化数据比较并用于讲述故事–两者都可以帮助用户做出决策。 数据可视化可以表示不同类型和大小的数据:从几个数据点到大型多元数据集。 准确 优先考虑数据的准确性,清晰...

2019-09-25 10:13:52 153 0

转载 【数据分析】数据分析如何提升?

看到这个名字,你可能会产生以下的疑问: 数据分析师为何要通关升级? 各级数据分析师有何差异? 要想成为中高级数据分析师需要通过哪些关卡? 这门课的特色是什么? 这门课的价值是什么? 看过的人怎么说? 数据分析师为何要通关升级 大数据时代,从海量数据中挖掘对企业有价值的知识,已...

2019-09-25 09:55:57 91 0

翻译 【数据科学】如何使用CuPy使Numpy更快

Numpy一直是Python社区的礼物。它允许数据科学家,机器学习从业者和统计学家以简单有效的方式处理矩阵格式的大量数据。 就速度而言,Numpy本身就是Python的重要一步。每当你发现你的Python代码运行缓慢时,特别是如果你看到很多for循环,那么将数据处理转移到Numpy并让它的矢量化...

2019-08-29 16:18:07 2644 1

翻译 【数据科学】70%的数据科学学习者做错了什么?

我大部分时间都在大学里积极寻找艰苦而有用的课程。但是,我在最后一年累了,我想休息一下。所以我参加了一个名为“航海物理学”的工程系的“有趣”课程。 我们描绘了允许帆船比风速更快的力量。我们了解了船的形状如何使其稳定或不稳定。我已经比大多数同学接受了更多的物理学习。所以,我在家庭作业上做得很好,并假...

2019-08-20 11:42:31 96 0

翻译 【数据可视化】10个免费工具,可以轻松,随时的开始使用数据可视化

使用这些简单直观的工具直接进入数据可视化过程。 不要只是简单地显示数据,用它来讲述故事! 目录 1.数据包装器 处理 2. RAWGraphs 处理 3.Charted 处理 4.Chart Studio 处理 5. Fastcharts 处理 6.Palladio...

2019-08-07 17:20:47 186 0

翻译 【大数据】数据湖正在成为新的数据仓库

像AWS Lake Formation和Delta Lake这样的平台指向了一个中央枢纽,用于决策支持和AI驱动的决策自动化 数据仓库是否再次相关,或者它们是一个垂死的品种? 如果你在这个问题上有点困惑,你会被原谅。一方面,数据仓库肯定似乎处于热门阶段。作为一个长期的行业观察者,我看到了连续...

2019-08-07 17:16:01 293 0

转载 【数据分析】数据分析常用术语

一、互联网常用名词解释 1、PV(Page View)页面浏览量 指某段时间内访问网站或某一页面的用户的总数量,通常用来衡量一篇文章或一次活动带来的流量效果,也是评价网站日常流量数据的重要指标。PV可重复累计,以用户访问网站作为统计依据,用户每刷新一次即重新计算一次。 2、UV(Unique...

2019-08-07 17:10:11 166 0

转载 【业务】5个顶级案例教你实现最牛供应链管理

目前,经济全球化显著改变了国际市场,传统供应链正在朝着全球一体化方向发展,在此背景之下,智慧供应链对企业的重要性越来越凸显出来。 我们将通过几个供应链的案例深层次剖析智慧供应链是如何练成的。 一、成本控制 案例分析:AAFES加强协作以降低客户成本 The Army and ...

2019-07-24 16:45:09 1629 0

转载 【数据分析】15组Excel函数,解决数据分析中80%的难题!

函数是excel中最重要的分析工具,面对400多个excel函数新手应该从哪里入手呢?下面是实际工作中最常用的15个(组)函数,学会后工作中的excel难题基本上都能解决了。 01 IF函数 用途:根据条件进行判断 用法: =IF(判断条件,条件成立返回的值,条件不成立返回...

2019-06-24 09:03:34 261 0

翻译 【pandas】pandas的文件读取方法 read_csv

pandas.read_csv(filepath_or_buffer,sep=',',delimiter=None,header='infer',names=None,index_col=None,usecols=None,squeeze=False,pre...

2019-05-13 16:22:16 973 0

原创 【更新情况】近期因为工作原因,针对机器学习方面文章停更。

由于近期工作状况,重心偏数据治理和项目实施,机器学习为内容的系列文章暂时停更,如果看到国外好的文章也会不定期的更新。 所在公司技术在起步阶段,工作内容较为“跨界”,所以发文告知一下关注我的小伙伴。 等工作内容稳定下来就继续开始研究图像方面的深度学习。 ...

2019-04-25 08:56:37 151 0

原创 【Web】一种好用的浏览器页面打印(打印销售小票)方法

使用工具:lodop 工具地址:http://www.c-lodop.com/download.html   样例: <html> <head> <meta http-equiv="Content-Typ...

2019-02-26 08:55:27 1512 0

翻译 【Pandas】Pandas处理大数据集的方法(内存优化,减少内存使用量90%)

目录 将内存使用量减少高达90%的方法 使用棒球比赛日志 数据帧的内部表示 了解子类型 使用子类型优化数值列 将Numeric与String存储进行比较 使用分类优化对象类型 读取数据时选择类型 分析棒球比赛 总结和后续步骤   将内存使用量减少高达90%的方法 当使用具...

2019-01-21 11:09:53 3155 0

原创 【Pandas ERROR】 ValueError: cannot convert float NaN to integer

  报错语句 data['col'] = data['col'].apply(int)   报错提示 ValueError: cannot convert float NaN to integer   报错原因 因为字段中存在NaN值,所以...

2018-12-26 15:38:42 5340 0

原创 【Pandas】Pandas数据分类

分类是与统计中的分类变量对应的pandas数据类型。分类变量采用有限的,通常是固定的可能值(类别 ; R中的级别)。例如性别,社会阶层,血型,国家归属,观察时间或通过李克特量表评级。 与统计分类变量相比,分类数据可能有一个顺序(例如“强烈同意”与“同意”或“第一次观察”与“第二次观察”),但数值...

2018-11-02 11:47:13 3684 0

翻译 【数据可视化】25个即时改进数据可视化设计的技巧

数据可视化不是关于显示数据; 它是以更容易理解的方式显示数据 - 这就是真正的价值所在。如果你想真正“看到”我们的意思,请看一下这个快速视频: 视频地址:https://vimeo.com/29684853 不幸的是,很多人认为将几张图表放在一起意味着您正在进行数据可视化设计。即使您对...

2018-11-01 09:19:51 511 0

原创 【数据分析】电商平台数据分析

目录 电商模式 年度重复购买率 转化率 年均购买率 购物车大小 弃买率 客户获取成本 平均每位客户营收 关键词和搜索词 推荐接受率 病毒性 邮件列表点入率 线下线上相结合 运送时间 库存可供率 图解电子商务   电商模式 年度重复购买率 用户获取模式:9...

2018-10-31 09:43:27 1416 0

原创 【数据分析】数据指标

目录 什么是好的数据指标? 找出正确的数据指标的五点方法 1、定性指标与量化指标 2、虚荣指标与可付诸行动的指标 3、探索性指标与报告性指标 4、先见性指标与后见性指标 5、相关性指标与因果性指标 市场细分、同期群分析、AB测试和多变量分析 市场细分 同期群分析 AB和多变...

2018-10-30 18:12:36 3068 0

转载 【数据分析】电商平台应该分析哪些数据?

首先要构建电商数据分析的基本指标体系,主要分为8个类指标 目录 1. 总体运营指标 2.网站流量指标 3. 销售转化指标 4. 客户价值指标 5.商品类指标 6. 市场营销活动指标 7. 风控类指标 8. 市场竞争指标   1. 总体运营指标 从流量、订单、总体销...

2018-10-30 14:32:34 3843 0

原创 【Pandas】Pandas分组:结合切割和应用

通过“分组依据”,我们指的是涉及以下一个或多个步骤的过程: 根据某些标准将数据拆分为组。 将功能独立应用于每个组。 将结果组合到数据结构中。 其中,分割步骤是最直接的。实际上,在许多情况下,我们可能希望将数据集拆分成组并对这些组执行某些操作。 应用步骤: 聚合:计算每个组的摘要统计(或统计) ...

2018-10-30 10:18:33 1077 0

翻译 【数据可视化】Python中使用Bokeh进行数据可视化,第一部分:入门

提升您的可视化游戏 如果没有有效的方法来传达结果,最复杂的统计分析可能毫无意义。最近我在研究项目中的经验使我们利用数据科学来提高建筑能效,从而推动了这一点。在过去的几个月里,我的一个团队成员一直致力于一种称为小波变换的技术,该技术用于分析时间序列的频率成分。该方法取得了积极的成果,但她在解释它时...

2018-10-30 09:33:59 1266 0

翻译 【数据科学】数据科学家必需熟知的5个基本统计概念

目录 统计特征 概率分布 维度降低 过采样和欠采样 贝叶斯统计   在执行数据科学(DS)艺术时,统计数据可以成为一种强大的工具。从高层次来看,统计学是利用数学来进行数据的技术分析。诸如条形图之类的基本可视化可能会为您提供一些高级信息,但通过统计,我们可以以更加信息驱动和有针对性...

2018-10-29 14:21:48 360 0

原创 【python】Python的可变对象和不可变对象与其充当函数参数的后果

python有两种对象: 不可变对象,如:int、float、str、tuple 可变对象,如:list、dict、set 目录 可变对象与不可变对象的含义 不可变对象 案例说明: 小结 可变对象 案例说明: 小结 总结 函数的参数传递 不可变对象作为函数参数 案...

2018-10-24 18:01:00 277 0

翻译 【机器学习】Python中随机森林的实现与解释

通过从单个决策树构建来使用和理解随机森林的指南。

2018-10-24 15:05:26 1305 2

提示
确定要删除当前文章?
取消 删除