自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

数据分析

专注大数据、人工智能、移动/互联网、IT科技、电商/金融、数据分析/挖掘等领域的综合信息服务与分享平台。

  • 博客(1045)
  • 收藏
  • 关注

转载 怎样减少报表后台的中间表?

许多做数据管理,数据治理的同学,经常会被数据库(仓库)中大量繁杂的数据表困扰,很多数据表并不是存储必要的基础数据的,而是在计算和查询中产生的中间表,这些中间表,经过长年累月的积累,往往会达到一个恐怖的数量级,严重的影响了数据库的管理和性能,而且这些中间表,又不敢随便删除,因为有的仍然在用,有的不知道还有没有用,随意删除很有可能就会影响业务,这时只能被迫的给数据库扩容了而这些让人苦恼的中间表,很大一...

2022-11-28 07:57:08 145

转载 50年来,推动AI革命的背后8大统计学思想!

来源:新智元本文约2800字,建议阅读5分钟本文介绍了AI革命背后的8大统计学思想。尽管深度学习和人工智能已经成为家喻户晓的名词,但推动这场革命的统计学突破却鲜为人知。在最近的一篇论文中,哥伦比亚大学的统计学教授Andrew Gelman和芬兰阿尔托大学的计算机科学教授Aki Vehtari详细列举了过去50年中最重要的统计学思想。https://www.tandfonline.com/doi/...

2022-11-24 07:54:07 176

转载 256页PPT!清华大学元宇宙发展研究报告3.0版发布

近日,清华大学沈阳教授团队发布了《元宇宙发展研究报告3.0版》。在前两版报告基础上,本报告按照回顾篇、学理篇、产业篇、社会篇、舆论篇、治理篇、科幻篇七个模块,对元宇宙作出挖掘与探究。报告总体上沿着“由当下到未来、由虚拟到现实、由中国到世界”的思想脉络进行梳理,试图全面总结元宇宙的发展脉络与规律,促进元宇宙相关技术升级,分析产业如何进行虚实融合,从而按照自身发展逻辑,通过新兴科技实现中国式现代化。作...

2022-11-21 08:07:00 329

转载 (待会删)yyds!网易内部数据分析学习资源,请低调使用!

- NETEASE-# 网易快讯 #当代职场 两极分化的打工人❌ 不会数据分析月薪7k-低效工具人✔会数据分析月薪3w+职场超能力者来网易3天学会数据高效处理数据思维决策数据可视化费用全免扫码免费报名来网易 助你摆脱职场低效工具人01职场必备0元福利,限额领取!① 100套万能可视化模板②100套职场汇报万能PPT模板③ 职场数据分析学习必备书籍扫码免费报名来网易 助你摆脱职场低效工具人023天...

2022-11-17 08:10:24 151

转载 总结了90条简单实用的Python编程技巧

来源:萝卜大杂烩、Python大数据分析本文约2600字,建议阅读5分钟本文为你总结了90条简单实用的编程技巧。编码原则建议1:理解 Pythonic 概念—-详见 Python 中的《Python之禅》建议2:编写 Pythonic 代码1.避免不规范代码,比如只用大小写区分变量、使用容易混淆的变量名、害怕过长变量名等。有时候长的变量名会使代码更加具有可读性。2.深入学习 Python 相关知识...

2022-11-14 08:06:37 152

转载 为什么大数据平台要回归SQL

先说观点:因为还没找到更好的。接下来说原因,首先来看看大数据平台都在干什么。原因结构化数据计算仍是重中之重大数据平台主要是为了应对海量数据存储和分析的需求,海量数据存储的确不假,除了生产经营产生的结构化数据,还有大量音视频等非结构化数据,这部分数据很大,占用的空间也很多,有时大数据平台 80% 以上都存储着非结构化数据。不过,数据光存储还不行,只有利用起来才能产生价值,这就要进行分析了。大数据分析...

2022-11-10 08:20:09 122

转载 一文读懂K均值(K-Means)聚类算法

作者:王佳鑫 审校:陈之炎本文约5800字,建议阅读10+分钟本文为你介绍经典的K-Means聚类算法。概述众所周知,机器学习算法可分为监督学习(Supervised learning)和无监督学习(Unsupervised learning)。监督学习常用于分类和预测。是让计算机去学习已经创建好的分类模型,使分类(预测)结果更好的接近所给目标值,从而对未来数据进行更好的分类和预测。因此,数据集中...

2022-10-25 11:04:05 1236

转载 Gartner:2023年十大战略技术趋势

日前,Gartner发布企业机构在2023年需要探索的十大战略技术趋势。Gartner杰出研究副总裁Frances Karamouzis表示:“为了在经济动荡时期增加企业机构的盈利,首席信息官和IT高管必须在继续加快数字化转型的同时,将目光从节约成本转向新的卓越运营方式。Gartner 2023年战略技术趋势围绕优化、扩展和开拓这三大主题,这些技术能够帮助企业机构优化韧性、运营或可信度、扩展垂直解...

2022-10-24 07:48:41 322

转载 想转行人工智能?高效学习路径来了!!!入职第一天即产生价值。

人工智能(Artifical Intelligence,AI)在近十年得到了飞速的发展,算法工程师的供小于求所带来的高薪也不断吸引着优秀人才进入人工智能领域。即便近期算法工程师招聘遇冷,但数字化的国家战略不会轻易改变,人工智能专业人士的缺口依旧巨大,仍然是“风口”之一。但是最近有同学私信我,人工智能难吗,这条路能坚持走吗?对于这位同学的问题,我想从两方面开始回答。AI学起来不容易01很多大多数欲从...

2022-10-14 07:43:17 338

转载 为什么用了大牌工具后报表开发依然头痛

因为用错了报表工具,或者没有用对姿势。疼在哪里?报表工具不就是为了解决手工开发报表效率低、困难多等这些让人头痛的难题的吗?怎么用了大牌工具还会头痛,是功能不行解决不了这些问题?不,并不是好的报表工具确实可以很好地解决制表方面的困难,但是报表开发的难题,并不全在制表上,还有相当一部分在数据准备上,应用中的报表,有 80% 的数据来源和计算都比较简单,很多一个简单的 SQL 语句就搞定了,但还有 20...

2022-10-13 07:51:56 114

转载 干货:如何构建一个量化投资策略

大家对量化交易或量化投资的方式都不陌生了,我们已接触和学习的包含但不限于量化投资门类,诸如程序化交易、算法交易、高频交易、套利交易、量化选股、量化择时等种类繁多的量化投资方式。也深知使用量化投资的方式能为我们提高执行效率、节省人力物力,降低成本、而且在一定程度上让我们对收益更有把控。但对于这个行业的新人来说,如何设计一个量化投资策略,算是入门的必修课。因此,为了帮助广大量化人更好地完善自己的策略模...

2022-09-22 08:05:57 408

转载 再见,VLOOKUP!66个经典Excel数据分析、可视化神技汇总,付费搞来的,一会儿删...

自打互联网兴起,“得数据者得天下”越来越成为企业信奉的真理!没点儿数据处理、数据分析能力在职场不仅直接影响自己的办公效率,还越来越没竞争力。不会批处理,数据一多立马抓瞎;会用的函数屈指可数,一张表的数据都处理不清,更别提跨表;不懂数据分析,永远给不到老板想要的数据;汇报、总结、述职,可视化搞不定,好印象全无!这些我都理解,所以专门为你精选了1份Excel实战课+4份大礼包原价199,现仅0.01元...

2022-09-19 22:29:44 442

转载 机器学习回归模型相关重要知识点总结

来源:机器学习研习院本文约3200字,建议阅读10+分钟本文为你总结10个重要的回归问题和5个重要的回归问题评价指标。回归分析为许多机器学习算法提供了坚实的基础。在这篇文章中,我们将总结 10 个重要的回归问题和5个重要的回归问题的评价指标。一、线性回归的假设是什么?线性回归有四个假设:线性:自变量(x)和因变量(y)之间应该存在线性关系,这意味着x值的变化也应该在相同方向上改变y值。独立性:特征...

2022-09-14 07:56:21 226

转载 干货 :一文读懂主成分分析

文:王佳鑫审校:陈之炎本文约6000字,建议阅读10+分钟本文带你了解PCA的基本数学原理及工作原理。概述主成分分析PCA(Principal Component Analysis)是一种常用的数据分析方法。PCA通过线性变换将原始数据变换为一组各维度线性无关的表示,可用于提取数据的主要特征分量,常用于高维数据的降维。本文用直观和易懂的方式叙述PCA的基本数学原理,不会引入严格的数学推导。希...

2022-09-07 08:12:55 4844

转载 干货 :搞定高质量数据可视化的20条建议

如今,商业领域的决策越来越重视数据驱动,数据可视化已经是当今的潮流。高质量的数据可视化能帮助人们更好地解读数据的意义,发掘数据背后的价值。但是我们发现,实践中很多图表并不容易让人理解,甚至会产生误导。因此本文列出如下20条优化建议,希望能够帮助你实现更好的数据可视化。01选择正确的图表类型如果选择了错误的图表类型,或只是默认使用最常见的图表类型,可能会使用户感到困惑,或对数据的意义产生误解。一个数...

2022-09-05 08:06:34 202

转载 中国大学面积排行榜,最大最小差了1600倍

有的高校凭科研实力雄踞前列,有的高校靠经费妥妥出圈,还有的高校则以占地面积狠狠刷了一波存在感。但是,大学生的悲欢并不相通:“在别人学校走着走着就迷路了,在我们学校走着走着就出去了。”农业大学大到拥有一个山头的私家园林,而海淀区的诸多高校连自行车都没有用武之地。全国高校面积大比拼,谁才是隐藏的王者?谁又是真正的小可怜?面积最大的大学,一半是 985在占地超大的大学上学是种什么样的体验?这是某社交平台...

2022-08-29 08:08:01 172

转载 8个常见的机器学习算法的计算复杂度总结

来源:DeepHub IMBA本文约1000字,建议阅读6分钟本文为你整理了一些常见的机器学习算法的计算复杂度。计算的复杂度是一个特定算法在运行时所消耗的计算资源(时间和空间)的度量。计算复杂度又分为两类:一、时间复杂度时间复杂度不是测量一个算法或一段代码在某个机器或者条件下运行所花费的时间。时间复杂度一般指时间复杂性,时间复杂度是一个函数,它定性描述该算法的运行时间,允许我们在不运行它们的情况下...

2022-08-26 08:26:37 215

转载 推荐 :如何突破数据分析(万字总结)

文整理自知乎专栏:突破数据分析,作者是网易数据分析高级总监贺志。看到一篇数据分析好文,分享给大家,主要讲数据分析方法论、经验总结以及个人成长。正 文我是一个数据从业者,很早以前就想把自己在工作和学习中的心得做个总结。一方面是对自己过往经历的一个总结和回顾;一方面最近几年大数据是越来越火了,也希望自己的经验能帮到那些对数据有热情、希望从事数据行业的新人们;还有一方面,也非常重要,是希望借助知乎这个平...

2022-08-24 08:38:19 118

转载 超全面!8 种互联网常用生命周期完整指南~

什么是生命周期?百度给出的定义是:生命周期就是指一个对象的生老病死。生命周期的概念应用很广泛,特别是在政治、经济、环境、技术、社会等诸多领域经常出现,其基本涵义可以通俗地理解为“从摇篮到坟墓”的整个过程。对于某个产品而言,它的生命周期其实是指产品从进入市场开始一直到退出市场为止所经历的整个市场生命的过程。接下来分享8张互联网常用的生命周期图,给还不了解生命周期的小伙伴补补课。1、项目生命周期常见的...

2022-08-22 08:08:35 742

转载 推荐 :如何比较两个或多个分布形态(附链接)

作者:Matteo Courthoud翻译:陈超校对:赵茹萱本文约7700字,建议阅读15分钟本文从可视化绘图视角和统计检验的方法两种角度介绍了比较两个或多个数据分布形态的方法。从可视化到统计检验全方位分布形态比较指南:图片来自作者比较同一变量在不同组别之间的经验分布是数据科学当中的常见问题,尤其在因果推断中,我们经常在需要评估随机化质量时遇到上述问题。我们想评估某一政策的效果(或者用户...

2022-08-18 08:33:40 759

转载 干货 :一文读懂 12种卷积方法

来源:机器之心本文约7800字,建议阅读15分钟本文归纳总结深度学习中常用的几种卷积,并会试图用一种每个人都能理解的方式解释它们。我们都知道卷积的重要性,但你知道深度学习领域的卷积究竟是什么,又有多少种类吗?研究学者 Kunlun Bai 近日发布一篇介绍深度学习的卷积文章,用浅显易懂的方式介绍了深度学习领域的各种卷积及其优势。鉴于原文过长,机器之心选择其中部分内容进行介绍,2、4、5、9、11...

2022-08-16 08:35:09 1654

转载 全国最憋屈的省会,省内也没存在感

要说石家庄到底有多没存在感,当人们细数最没存在感的省会城市时甚至都想不起来他的名字——“石什么庄?”人们对于河北的印象,可能是衡水中学,是京津冀大三角,也可能是雄安新区。经济不如唐山、历史不如保定的石家庄,好像只剩下自己的“省会之名”。石家庄是一座新中国成立后才搞起来的城市,没有底蕴,没景点,也没有什么大学,连省会也是因缘巧合下侥幸获得。虽然距离北京只有一个多小时的车程,...

2022-08-12 09:11:17 117

转载 应用系统中的报表开发成本知多少?

报表看起来是数据分析处理领域中的一个并不起眼儿的边缘业务,数据工程师的关注点一般会在后端的大数据平台和数据仓库,即使是前端,架构师们也会更关注 BI 可视化等时髦的概念,报表则经常作为一个部分被湮没在呈现模块中,即使有时被单拎出来也就是在架构图上放一个报表工具而已。这种忽视态度很可能造成对报表开发的成本估算严重不足,而应用中的报表又常常没完没了,总会有新的改的需求,导致整...

2022-08-12 09:11:17 419

转载 吴恩达 :机器学习的六个核心算法

来源:AI科技评论本文约7200字,建议阅读15分钟本文介绍了吴恩达在其创办的人工智能周讯《The Batch》上更新了一篇博文,总结了机器学习领域多个基础算法的历史溯源。文章开头,吴恩达回忆他的研究历程中曾有一次抉择:多年前,在一次项目中,选择算法时,他不得不在神经网络与决策树学习算法之间做选择。考虑到计算预算,他最终选择了神经网络,在很长的一段时间内弃用增强决策树。这...

2022-08-05 08:49:46 415

转载 分享 :推荐系统不单单指推荐模型

作者:Even Oldridge,Karl Byleen-Higley 翻译:陈之炎校对:zrx本文约2500字,建议阅读10分钟本文与你分享涵盖了部署推荐系统的全流程的一种推荐模式。新手在构建推荐系统时面临的最大挑战是缺乏对推荐系统的切实理解,将大多数推荐系统的在线内容集中在模型上,并且通常仅限于一个简单的协同过滤例子。对于新的从业者来说,推荐系统的简单模型示例和...

2022-08-01 08:55:52 113

转载 推荐 :支持向量机在金融领域的应用

作者:金一鸣 审校:陈之炎本文约4400字,建议阅读8分钟本文选择一个简单直观的应用实战——根据股价基本 历史数据来预测股市涨跌。支持向量机(Support Vector Machine, SVM)是一种通过监督学习方式来进行学习的分类和回归模型,在多数情况下,人们都会用这个模型来进行较小规模的二分类任务的求解。支持向量机主要的思想是在特征空间上找到一个与正负样本边界...

2022-07-27 08:01:54 366

转载 老板最不能拒绝的请假理由,它排第一

周五下午,不少打工人的心思已经飞到了周末。摸鱼,才是周五的“正确打开”方式。但不管是带薪拉屎还是切屏追剧,不说被抓包的风险,等下班的过程也很煎熬。这时候,则恨不得自己已经请假了——连休三天,想想都美。请假作为更加彻底的摸鱼手段,不仅可以摆脱公司、学校的场所限制,还能尽情放飞自我。不过,想要找到一个合适且成功率高的请假理由,还是不太容易。从上学到上班,大家为了请假,和老师、...

2022-07-20 07:37:31 634

转载 干货 :深度学习必须掌握的 13 种概率分布

来源:深度学习前沿本文约1400字,建议阅读5分钟这里有一份最常见的基本概率分布教程,大多数和使用 python 库进行深度学习有关。作为机器学习从业者,你需要知道概率分布相关的知识。这里有一份最常见的基本概率分布教程,大多数和使用 python 库进行深度学习有关。一 概率分布概述共轭意味着它有共轭分布的关系。在贝叶斯概率论中,如果后验分布 p(θx)与先验概率分布 ...

2022-07-18 08:08:15 255

转载 为什么要做特征的归一化/标准化?

来源:深度学习爱好者、极市平台https://blog.csdn.net/blogshinelee/article/details/102875044本文约4300字,建议阅读8分钟本文探索对于feature scaling中最常使用的Standardization。写在前面Feature scaling,常见的提法有“特征归一化”、“标准化”,是数据预处理中的重要技术,...

2022-07-15 08:18:30 155

转载 告别宽表,用DQL成就新一代BI

BI 商业智能这个概念已经提出好几十年了,这个概念本身比较宽泛,不同人也有不同的理解和定义,但落实到技术环节,特别是面向业务用户的环节,所称的 BI,基本就是指的多维分析或者自助报表不管是叫自助报表还是多维分析,也都是一回事,都是让用户自己去通过拖拽的方式查询数据或制作报表用户想通过 BI,实现查询和报表自由,也就是可以灵活地分析自己想要的数据,挖掘出更大的价值厂商想通过...

2022-07-12 08:05:34 228

转载 全干货!机器学习通识篇知识分享

机器学习定义机器学习(Machine Learning)本质上就是让计算机自己在数据中学习规律,并根据所得到的规律对未来数据进行预测。机器学习包括如聚类、分类、决策树、贝叶斯、神经网络、深度学习(Deep Learning)等算法。机器学习的基本思路是模仿人类学习行为的过程,如我们在现实中的新问题一般是通过经验归纳,总结规律,从而预测未来的过程。机器学习的基本过程如下:机...

2022-07-07 08:42:22 160

转载 统计学和机器学习到底有什么区别?

来源:不止数据分析本文约5800字,建议阅读10+分钟没有统计学,机器学习根本没法存在,但由于当代信息爆炸,人类能接触到的大量数据,机器学习是非常有用的。统计学和机器学习之间的界定一直很模糊。无论是业界还是学界一直认为机器学习只是统计学披了一层光鲜的外衣。而机器学习支撑的人工智能也被称为“统计学的外延”。例如,诺奖得主托马斯·萨金特曾经说过人工智能其实就是统计学,只不过用...

2022-07-04 20:55:23 118

转载 推荐 :联合概率和条件概率的区别和联系

联合概率P(A∩B)两个事件一起(或依次)发生的概率。例如:掷硬币的概率是 ¹⁄₂ = 50%,翻转 2 个公平硬币的概率是 ¹⁄₂ × ¹⁄₂ = ¹⁄₄ = 25%(这也可以理解为 50% 的 50%)P(A ∩ B) = P(A) ⋅ P(B)对于 2 个硬币,样本空间将是 4 {HH,HT,TH,TT},如果第一个硬币是 H,那么剩余的结果是 2 {HT,HH}。...

2022-07-01 08:54:52 321

转载 收藏! 38个Python数据科学顶级库

这篇文章中包括的类别,我们认为这些类别考虑了通用的数据科学库,即那些可能被数据科学领域的从业人员用于广义的,非神经网络的,非研究性工作的库:数据-用于数据管理,处理和其他处理的库数学-虽然许多库都执行数学任务,但这个小型库却专门这样做机器学习-自我解释;不包括主要用于构建神经网络或用于自动化机器学习过程的库自动化机器学习-主要用于自动执行与机器学习相关的过程的库数据可视化...

2022-06-28 08:06:11 670

转载 数据分析师都了解的统计基本概念

本文讲述了数据分析师应当了解的五个统计基本概念:统计特征、概率分布、降维、过采样/欠采样、贝叶斯统计方法。从高的角度来看,统计学是一种利用数学理论来进行数据分析的技术。象柱状图这种基本的可视化形式,会给你更加全面的信息。但是,通过统计学我们可以以更富有信息驱动力和针对性的方式对数据进行操作。所涉及的数学理论帮助我们形成数据的具体结论,而不仅仅是猜测。利用统计学,我们可以更...

2022-06-24 08:49:19 164

转载 推荐 :Netflix因果推理应用调研

作者:Netflix Technology Blog翻译:陈之炎 校对:zrx本文约2500字,建议阅读5分钟在这篇博文中探究社区Netflix因果推理的广度。Netflix旨在通过创造引人入胜的内容,帮助会员发现他们所热爱的游戏娱乐世界。其中的关键在于,需要充分理解产品升级与会员快乐指标相关联的因果效应。此前,Netflix往往通过AB测试来衡量二者之间的因果效...

2022-06-22 08:15:31 138

转载 统计学常犯错误TOP榜,避坑防雷指南!

来源:知乎 良好研究方法 作者:求知鸟 pythonic生物人本文约2400字,建议阅读5分钟本文为你总结统计学常犯错误。1. 变量之间关系可以分为两类:函数关系:反映了事务之间某种确定性关系相关关系:两个变量之间存在某种依存关系,但二者并不是一一对应的;反映了事务间不完全确定关系;2. 为什么要对相关系数进行显著性检验?实际上完全没有关系的变量,在利用样本数据进行计...

2022-06-16 08:23:27 120

转载 推荐 :批大小如何影响模型学习 你关注的几个不同的方面

作者:Devansh翻译:汪桉旭 校对:zrx本文约3300字,建议阅读10分钟本文对批量大小和监督学习的相关研究进行了总结。批大小是机器学习中重要的超参数之一。超参数定义了更新内部模型参数之前要处理的样本数,这是确保模型达到最佳性能的关键步骤之一。当前,针对不同的批大小如何影响ML工作流,已经开展了很多研究。本文对批量大小和监督学习的相关研究进行了总结。为全面...

2022-06-14 07:44:55 523

转载 推荐 :破解个人数据“不可能三角”初探

个人数据开发利用的“不可能三角”是指在个人数据开发利用中,不可能同时满足开放、隐私和安全这三个目标;与此同时,其中任何一个目标都对其他两个目标产生影响,从而无法独立的实现各自目标。个人数据开发利用的旧范式是App应用服务商向个人提供服务,个人向App应用服务商提供或生产个人数据。App应用服务商通过处理、交易个人数据,从而获得直接或间接收益。在过去几十年中,这种范式处于主...

2022-06-10 08:38:51 346

转载 数据科学中的 10 个重要概念和图表的含义

来源:DeepHub IMBA本文共1200字,建议阅读5分钟“当算法给你一条曲线时,一定要知道这个曲线的含义!”1、偏差-方差权衡这是一个总是在机器学习最重要理论中名列前茅的概念。机器学习中的几乎所有算法(包括深度学习)都努力在偏差和方差之间取得适当的平衡,这个图清楚地解释了二者的对立关系。2、基尼不纯度与熵Gini(缺乏同质性的度量)和 Entropy(随机性的度量...

2022-06-06 07:23:24 118

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除