自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

数据分析

专注大数据、人工智能、移动/互联网、IT科技、电商/金融、数据分析/挖掘等领域的综合信息服务与分享平台。

  • 博客(1045)
  • 收藏
  • 关注

转载 金融数智融合,激发数据新活力

近年来,大数据和AI新技术持续蓬勃发展。根据Gartner发布的2022年数据管理技术成熟度曲线,Lakehouse(湖仓一体)、Data Mesh、Data Fabric技术成为数据分析领域的重要趋势,支撑金融机构高效使用数据和业务创新。随着AI技术掀起新一轮的技术浪潮,金融科技作为行业数字化转型的“领头羊”,在金融业大数据和AI深度融合方面将会走向何方?多年来,金融业持续采用随时代发展而成熟的...

2023-06-08 18:11:56 138

转载 干货 :一文掌握卡方检验

卡方检验(Chi Square Test)被广泛使用,特别是在涉及医学、产品设计、工程和几乎所有研究项目的决策中。为了理解什么是卡方检验,首先需要了解什么是假设检验,因为卡方检验是假设检验的一种。一旦知道什么是假设检验,就能够在此基础上了解许多不同种类的假设检验,例如卡方检验、t检验、Z检验、Wilcoxon检验等。1. 什么是假设检验?假设检验是一种统计分析方法,它查看样本并确定样本的测试结果是...

2023-06-05 08:13:27 483

转载 10大机器学习聚类算法实现(Python)

聚类或聚类分析是无监督学习问题。它通常被用作数据分析技术,用于发现数据中的有趣模式,例如基于其行为的客户群。有许多聚类算法可供选择,对于所有情况,没有单一的最佳聚类算法。相反,最好探索一系列聚类算法以及每种算法的不同配置。在本教程中,你将发现如何在 python 中安装和使用顶级聚类算法。完成本教程后,你将知道:聚类是在输入数据的特征空间中查找自然组的无监督问题。对于所有数据集,有许多不同的聚类算...

2023-06-01 08:13:47 215

转载 全国爆款姓名大赏,这五个字被用烂了

叫龙傲天还是王狗蛋,会影响你未来成为富豪吗?取名可以很严肃,也可以很野性。比起人生运势、性格取向,最新一批升级当父母的 95 后、00 后更在乎取的名字能否与众不同、出奇制胜。正如每个叫“建国”的爷爷都有个叫“保国”的儿子,每对叫“子轩”和“梓萱”的父母都可能用食物给孩子当小名,再把“王权富贵、顾得猫宁、孟想陈真、周游列国”印在户口本上。这届父母取名,真的越来越有个性了吗?取名就像写论文,追求低查...

2023-05-29 08:42:15 150

转载 【NLP】从T5到GPT-4!大语言模型全新综述来了

来源:机器之心本文约7400字,建议阅读15分钟本文介绍了NLP的最新语言模型。为什么仿佛一夜之间,自然语言处理(NLP)领域就突然突飞猛进,摸到了通用人工智能的门槛?如今的大语言模型(LLM)发展到了什么程度?未来短时间内,AGI 的发展路线又将如何?自 20 世纪 50 年代图灵测试提出以来,人们始终在探索机器处理语言智能的能力。语言本质上是一个错综复杂的人类表达系统,受到语法规则的约束。因此...

2023-05-25 07:57:47 392

转载 润乾全功能报表 BI 仅一万,省下全是利润

数据信息化项目中,买个第三方报表工具来做报表是很常见的事情,因为报表工具可以简单高效的解决报表问题,能节省人工成本的投入,变相的提升项目的利润,如果购买工具的成本也能低一些,那省出来的利润就更高了好用的报表工具常有,便宜又好用的却不常有好用又便宜,谁都知道这是个悖论,是个妄想,去找这样的东西多半是在浪费自己的时间和感情,对于报表工具来说,同样也是,常用的报表工具功能是不错,但是哪里有便宜的呢,苦苦...

2023-05-23 08:09:08 91

转载 研究生比本科生还多,我的学历成一张废纸了吗

4 月了,又一年考研季落下帷幕,有人欢喜成功上岸,有人遗憾错失梦校……但最近的一个消息,让所有大学生都心头一紧:根据北京市教委最新数据,北京今年的硕博毕业生人数将超过本科生[1]。考研热还在一年年升温,去年考研人数直逼 500 万 [2],研究生学历这么快就“通货膨胀”了?本以为拼命考上研究生就能更好找工作,但种种因素似乎都在证明,读研也没法保证一个安稳的未来。考研,真的不值得了吗?学历倒挂,硕...

2023-05-17 08:30:35 211

转载 优秀互联网产品经理必备的10张业务图谱

作为离产品最近的人,产品经理是团队的交通枢纽,链接运营的需求和程序员的开发工作。面对庞杂多面的工作,今天小编和大家聊聊产品经理在工作各环节想要精进专业,都需要具备哪些能力。01学习篇持续学习的概念早已被大家接受,产品们更是进化出了高度自觉,小白随手一搜“产品经理能力模型”,就立刻留下了不学无术的泪水。点击查看模板高清原图从专业技能到产品设计能力、从产品管理能力到团队管理能力,再到自我管理的能力,都...

2023-05-10 08:43:18 378

转载 大型语言模型综述全新出炉:从T5到GPT-4最全盘点,国内20余位研究者联合撰写...

本文约7300字,建议阅读10+分钟中国人民大学的二十几位研究者通过背景知识、关键发现和主流技术等三方面回顾了 LLMs 的最新进展。为什么仿佛一夜之间,自然语言处理(NLP)领域就突然突飞猛进,摸到了通用人工智能的门槛?如今的大语言模型(LLM)发展到了什么程度?未来短时间内,AGI 的发展路线又将如何?自 20 世纪 50 年代图灵测试提出以来,人们始终在探索机器处理语言智能的能力。语言本质上...

2023-05-08 08:20:11 280

转载 干货推荐 :大模型、AI经济和AI基础设施

‍大家好,我是算想未来的创始人CEO赵亚雄。今天非常高兴到母校来做简短的分享。我们最近会几乎是被ChatGPT、OpenAI等等话题各类的信息轮番轰炸。我希望借助这个机会,把自己这一段时间来思考的有关AI基础设施还有AGI再到大模型等内容,从相对抽象的概念到与大家关系密切的、具体到各个层面的部分内容串联起来。整个的脉络会沿着一个相对宏观,然后再具体到计算机科学、计算机产业、软件产业的发展角度来描述...

2023-05-04 08:28:31 572

转载 推荐 :小数据集也能大有作为:特征工程的妙用

作者:Krzysztof Pałczyński翻译:王闯(Chuck)本文约1800字,建议阅读8分钟本文介绍了如何在小数据集上应用特征工程来提高机器学习模型的性能。特征工程可以弥补数据的不足。图片源自Unsplash,由Thomas T上传在快速发展的人工智能(AI)世界中,数据已成为无数创新应用和解决方案的命脉。实际上,大型数据集通常被认为是训练强大且准确的 AI 模型的支柱。但是,当...

2023-04-26 06:54:53 148

转载 过去 10 年了,这本书依然值得好好阅读

人工智能时代,帮助用户找到生命中最美好时刻的个人、品牌和公司将成为赢家。——阿利斯泰尔·克罗尔、本杰明·尤科维奇当《精益数据分析》10 年前首次出版时,现代互联网还处于起步阶段。当时,iPhone 还是个新发明。几乎没有初创企业对外公布他们的创业指标,投资人也不知道该问什么问题。挑选什么样的第一关键指标作为关注点仍然是个有争议的问题。(文末留言,将有机会获得该珍藏版图书)因此,每个读者心中的问题都...

2023-04-23 15:56:11 103

转载 10个Pandas的另类数据处理技巧

来源:DeepHub IMBA本文约2000字,建议阅读5分钟本文介绍了10个Pandas的常用技巧。本文所整理的技巧与以前整理过10个Pandas的常用技巧不同,你可能并不会经常的使用它,但是有时候当你遇到一些非常棘手的问题时,这些技巧可以帮你快速解决一些不常见的问题。1、Categorical类型默认情况下,具有有限数量选项的列都会被分配object 类型。但是就内存来说并不是一个有效的选择...

2023-04-20 08:08:58 126

转载 Pandas50个高级操作,必读!

来源:机器学习杂货店本文约4000字,建议阅读10分钟在Pandas对数据的复杂查询、数据类型转换、数据排序、数据的修改、数据迭代以及函数的使用。在数据分析和数据建模的过程中需要对数据进行清洗和整理等工作,有时需要对数据增删字段。下面为大家介绍Pandas对数据的复杂查询、数据类型转换、数据排序、数据的修改、数据迭代以及函数的使用。https://zhuanlan.zhihu.com/p/5682...

2023-04-17 08:18:55 118

转载 社畜吐槽最多的人,甲方只能排第三

职场如江湖,哪能不挨刀。天天加班、职场 PUA、人际关系等一系列糟心事,99% 的职场人都曾遭遇,但敢于整顿职场的勇士却是少数。网传有员工因无法忍受天天早 8 晚 11 的社畜生涯,怒怼强制要求清明节加班的领导,让不少人感慨“简直是吾辈楷模”。起初,职场小白们还试图熟记“职场生存法则”,用鸡汤驰骋职场江湖。后来,上班变得难熬,只剩下一口气的职场老油条们已经学会用吐槽掩饰自己的心力交瘁。如果把话筒递...

2023-04-12 08:29:11 124

转载 上了 BI,B 就 I 了吗?

BI,Business Intelligence,中文名称:商业智能,或者商务智能BI 中的这个 Intelligence,智能,虽说在不同时期有不同的定义和解读,但究其根本,其实都是想通过分析企业过往的经营状况,得出正确的事实依据,从而指导和辅助商业的决策,让商业决策和管理更科学,而不再是根据感觉拍脑袋来决定BI 的概念早已有之,但最近这些年比较火,因为很多企业在经历了多年的信息化建设后,都沉淀...

2023-04-10 08:36:10 146

转载 大学最后悔学的专业,谁学谁是大冤种

小语种的黄金年代,一去不复返。曾经,小语种仿佛自带高端、精英的标签。在外人们的想象中,学小语种,光鲜亮丽、风光体面,毕业后选择颇多,不是进外交部、就是去外企挣大钱,走上人生巅峰。然而,小语种的光环正日渐黯淡,甚至高考录取分数线都在逐年下滑。小语种,怎么走到了被 00 后们抛弃的境地?小语种专业,过气了在高校招生领域内,大家习惯性将除英语外的外语类专业统称为“小语种”。阳光高考信息平台数据显示,全国...

2023-04-07 13:35:17 342

转载 独家 :16个Python技巧,轻松解锁编程新境界(附链接)

作者:Anmol Tomar;翻译:王闯(Chuck)本文约2700字,建议阅读7分钟本文介绍了16个 Python 编程技巧。掌握这些技巧不仅能够提高编程效率,还能使你的代码更加优美和高效,让人眼前一亮!如果你想在编程路上更进一步,那么不妨一试。让Python开发者生活更加轻松的技巧图片来源: Unsplash简介Python作为一种编程语言,拥有大量的库和框架,获得广泛应用。然而,有些Pyt...

2023-04-03 08:21:49 107

转载 腾讯35岁员工真实工资大曝光,我顿悟了成人社会的残酷规则!

前段时间,在网上看到一个帖子。腾讯一位35岁员工在帖子中自述已做好退休的准备,他退休的资本是什么呢:1000万的房产,1000万的腾讯股票,以及300万的现金。有网友算了一笔账,按照一般工薪族平均税后收入20万的年薪计算,大约需要花上60年左右,才能赚到这位35岁已经拥有的全部财富。也就是说,普通人可能奋斗一辈子,才能赚到这笔钱。但我相信,每一个现状不够好的人,都想拥有更好的人生。今天给大家介绍一...

2023-04-01 08:07:36 573

转载 90页PPT | 数字化建模的方法与实践

本文来源:数字化演易,作者丁肇之;END版权声明:本号内容部分来自互联网,转载请注明原文链接和作者,如有侵权或出处有误请和我们联系。合作请加QQ:365242293数据分析(ID:ecshujufenxi)互联网科技与数据圈自己的微信,也是WeMedia自媒体联盟成员之一,WeMedia联盟覆盖5000万人群。...

2023-03-29 08:09:30 296

转载 图解 72 个机器学习基础知识点

来源:尤而小屋 R语言统计与绘图本文约5500字,建议阅读11分钟本文梳理了机器学习最常见的知识要点。图解机器学习算法系列以图解的生动方式,阐述机器学习核心知识 & 重要模型,并通过代码讲通应用细节。1. 机器学习概述1)什么是机器学习人工智能(Artificial intelligence)是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。它是一...

2023-03-27 08:20:23 232

转载 结合基于规则和机器学习的方法构建强大的混合系统

来源:Deephub Imba本文约2900字,建议阅读5分钟本文将介绍一些实际的案例,以及如何将手动规则和ML结合使得我们的方案变得更好。经过这些年的发展,我们都确信ML即使不能表现得更好,至少也可以在几乎所有地方与前ML时代的解决方案相匹配。比如说一些规则约束,我们都会想到能否把它们替换为基于树的ml模型。但是世界并不总是黑白分明的,虽然机器学习在解决问题上肯定有自己的位置,但它并不总是最好的...

2023-03-24 08:00:19 185

转载 52个数据可视化图表鉴赏,收藏!

一、数据可视化,是关于数据视觉表现形式的科学技术研究。其中,这种数据的视觉表现形式被定义为,一种以某种概要形式抽提出来的信息,包括相应信息单位的各种属性和变量。它是一个处于不断演变之中的概念,其边界在不断地扩大。主要指的是技术上较为高级的技术方法,而这些技术方法允许利用图形、图像处理、计算机视觉以及用户界面,通过表达、建模以及对立体、表面、属性以及动画的显示,对数据加以可视化解释。与立体建模之类的...

2023-03-21 08:20:09 862

转载 推荐 :语言模型初学者指南(ChatGPT火后不得不看)

作者:Mor Kapronczay翻译:陈之炎 校对:赵茹萱本文约3600字,建议阅读7分钟语言模型预测单词或单词序列的概率分布,通过本文了解不同类型语言模型,以及可以用它们做什么。图片:Shutterstock / Built In过去十年中,从文本数据中提取信息的技术发生了巨大变化,自然语言处理这一术语已经超跃文本挖掘,成为该领域的主导方法。与此同时,该方法也发生了翻天覆地的变化。引...

2023-03-17 08:35:30 235

转载 一图胜千言 :图解机器学习!

四大会计师事务所之一的普华永道(PwC)发布了多份解读机器学习基础的图表,其中介绍了机器学习的基本概念、原理、历史、未来趋势和一些常见的算法。为便于读者阅读,机器之心对这些图表进行了编译和拆分,分三大部分对这些内容进行了呈现,希望能帮助你进一步扩展阅读。一、机器学习概览1. 什么是机器学习?机器通过分析大量数据来进行学习。比如说,不需要通过编程来识别猫或人脸,它们可以通过使用图片来进行训练,从而归...

2023-03-14 08:41:33 318

转载 数据可视化建设的成本该花在哪?

企业的数据信息化建设过程中,可视化的需求现在越来越火,因为可视化能更直观的表达数据的含义,让用户更简单清晰的理解数据的信息,体验更好,而且随着可视化技术的不断进步,图形不仅可以承载更多的信息,也变得越来越美观,更是让项目增色不少可视化的解决方案,在网上有的很贵,有的免费,有的需要买专门的产品或者功能模块,有的报表工具就可以直接做,到底该花多少钱,钱又该花在了什么地方呢?带着这些疑惑,我们来分析一下...

2023-03-10 08:32:40 223

转载 关于ChatGPT八个技术问题的猜想

本文约5000字,建议阅读5分钟对于ChatGPT表现案例的总结已经非常多了,这里主要总结一下自己对ChatGPT技术问题的一些思考。看到ChatGPT的华丽诞生,心情很复杂,既高兴、惊喜,也感到恐慌,高兴和惊喜的是没有预料到这么快就见证了自然语言处理(NLP)技术的重大突破,体验到通用技术的无限魅力。恐慌的是ChatGPT几乎可以高质量地完成NLP中的大多数任务,逐渐认识到很多NLP的研究方向...

2023-03-07 08:44:50 600

转载 提升办公技能 :9张超实用的计划表,帮你实现高效时间管理!

新的一年,祝大家钱“兔”似锦,“薪”想事成!每年春天是最适合做计划的时间,在日常生活和工作中,处处离不开计划表,一个优秀的职场人,应该学会时间管理,也要学会用计划表。好计划能够让工作、生活和学习事半功倍,今天趁着开工吉时,小编分享一些常用计划表,希望能帮到你~01计划表常用的8种方法我们每天都会接受到很多干扰,如手机消息、聊天、会议、临时聚餐等,想要避免漏掉重要的事情,列出时间计划表对时间管理来说...

2023-03-01 08:28:34 957

转载 推荐 :6个Python数据科学库正在狂飙,你一定要学来提升文化素养

作者:Bex T;翻译:wwl ;校对:张睿毅本文约3200字,建议阅读8分钟计算类数据科学库,已经不再局限在Pandas、NumPy、Scikit-learn之内了!动机2023年的开始,自然需要探索数据科学和机器学习的新趋势。经典的数据科学库Pandas、NumPy、Matplotlib、Scikit-learn虽然很重要,但是已经不够用了。这个系列的上一篇文章(https://toward...

2023-02-27 08:02:54 216

转载 值得收藏!2023 年,你应该知道的所有机器学习算法~

在过去的几年里,我根据自己的工作经验,与其他数据科学家的交流,包括在网上阅读到的内容,汇编了自认为最重要的机器学习算法。今年,我想在去年发表文章的基础上提供各类别中更多的模型。希望提供一个工具和技术的宝库,你可以将其作为书签,这样就可以解决各种数据科学的问题了。说到这里,让我们深入了解以下六种最重要的机器学习算法类型。解释型算法模式挖掘算法集成算法聚类算法时间序列算法相似度算法解释型算法机器学习面...

2023-02-16 08:09:21 267

转载 大数据技术的四大挑战与十大趋势

来源:数字化转型工作室 大数据技术前瞻本文约3500字,建议阅读10分钟本文在计算体系重构的背景下,指出了大数据技术发展的四大技术挑战和十大发展趋势。日前,中科院院士梅宏联合中国人民大学、华中科技大学、中科院计算技术研究所、中国科学院大学、北京理工大学多位专家,发布最新论文《大数据技术前瞻》。该文在计算体系重构的背景下,指出了大数据技术发展的四大技术挑战和十大发展趋势。论文指出,在大数据应用需...

2023-02-14 08:00:45 463

转载 怎样实现 T+0 的实时报表?

T+0 的概念,运用比较广泛的是在金融领域,T(Transaction)表示交易日期,+0 就是指交易当天,+N 就代表交易的 N 天后现在大数据、数据分析领域,也总用到这个概念,含义仍然相同,T+0 表示当天的实时数据,T+N 则表示当天的数据 N 天后才能看到放到报表中 T+0 就是今天的报表就可以看到今天实时的数据,T+1 就是今天的数据,明天才能看到T+0 报表的难点在哪里如果所有数据都存...

2023-02-10 08:29:37 228

转载 推荐 :ChatGPT研究框架(80页PPT)

研究框架系列合规声明:本文节选自正式入库研究报告。转自:计算机文艺复兴 公众号,本次转载仅供学习;‍‍END版权声明:本号内容部分来自互联网,转载请注明原文链接和作者,如有侵权或出处有误请和我们联系。合作请加QQ:365242293数据分析(ID:ecshujufenxi)互联网科技与数据圈自己的微信,也是WeMedia自媒体联盟成员之一,WeMedia联盟覆盖5000万人群。...

2023-02-08 13:10:47 3646

转载 Python也能画漂亮的complex heatmap?

对于经常用R语言来画图的科研工作者来说,应该对ComplexHeatmap(https://jokergoo.github.io/ComplexHeatmap-reference/book/)很熟悉了吧。这个包画的热图,既专业又漂亮。可惜的是,在python中,一直没能出现一个可以画出好看complex heatmap的包,由于我们在用python做机器学习或者处理大数据的时候,也需要画热图,而在...

2023-02-01 08:53:40 412

转载 干货 :数据跨境传输合规体系的构建思路

以下内容整理自清华大学《数智安全与标准化》课程大作业期末报告同学的汇报内容。第一部分:研究背景随着经济活动数字化转型加快,“数据”对生产、流通、分配和消费活动产生重要影响,成为新的生产要素。地区之间数据流通愈发频繁,数据传输的规模和频率不断扩张,人民也能愈发感受到数字经济发展带来的红利。另外一方面,数据本身存在非常多的利益,如数据中版权信息涉及到公司组织利益,地图数据中包含了国家利益。因此,我们发...

2023-01-09 07:55:52 3243

转载 谷歌统计学家表示“统计学很无聊“

来源:数学加油吧机器学习算法与Python实战本文约3500字,建议阅读7分钟本文为你分享谷歌的统计学家 Cassie Kozyrkov 对于统计学的观点。统计学是通过搜索、整理、分析、描述数据等手段,以达到推断所测对象的本质,甚至预测对象未来的一门综合性科学。嗯,以上是统计学课本中对统计学的定义!但是近日,一位来自谷歌的统计学家却发长文表示“统计学很无聊。“这位统计学家叫 Cassie Ko...

2023-01-03 08:09:28 303

转载 吴恩达的2022年终盘点 :人工智能闪耀的一年

来源:蘑菇先生学习记、智源社区本文约5100字,建议阅读10分钟本文将着重回顾人工智能在2022年创造的奇迹。近期,吴恩达在圣诞节的《The Batch》特刊上发布了一年一度的年终盘点。在过去一年,生成式AI迎来爆发式增长,由人工智能生成的图片在社交平台疯狂传播,引发大量争议的同时也推动了投资;视觉 Transformer(ViT) 的工作也出现爆炸性增长,在过去一年中,研究人员共计发表超过 17...

2022-12-29 08:28:34 287

原创 借助“云上”SPSS降低未来数据分析的不确定性

生活工作中我们常常会遇到这样或那样的困难,比如不得不临时居家办工,却发现家中电脑没有安装工作中的必备软件,比如毕业论文写到一半,同学告诉你,新版的软件升级加强了某个模型,能让你更好的完成论文。软件下载更新麻烦不说,还时常在下载过程中被各种下载加速卡“下载速度”的脖子,如果不充个VIP会员什么的,将严重影响心情和效率。除此之外,我们还可能遇到因为电脑硬件问题而不得不暂时中断工作与学习的过程,比如工作...

2022-12-27 08:11:06 517

转载 ​原创 | AI顶会论文很多附带源代码?不少是假开源!

作者:林嘉亮;审校:陈之炎;本文约3500字,建议阅读10分钟相当多的作者没有向用户提供足够详细的文档,导致了一些重要信息的缺失。看到一篇绝佳的AI论文,非常期待作者能提供源代码,全文搜索HTTP,可惜出来的都不是源代码的链接。好不容易碰到一篇附带源代码的论文,点进去却是大大的404。终于发现某个不是404的源代码仓库,结果只是放上了几句说明,写着“代码coming soon”,然后一等就是一万...

2022-12-14 08:28:23 545

转载 一个比ClickHouse还快的开源数据库

开源分析数据库 ClickHouse 以快著称,真的如此吗?我们通过对比测试来验证一下。ClickHouse vs Oracle先用 ClickHouse(简称 CH)、Oracle 数据库(简称 ORA)一起在相同的软硬件环境下做对比测试。测试基准使用国际广泛认可的 TPC-H,针对 8 张表,完成 22 条 SQL 语句定义的计算需求(Q1 到 Q22)。测试采用单机 12 线程,数据总规模 ...

2022-12-12 08:08:55 221

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除