自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 数据工程师必备知识——ETL

首先E指代Data extraction,是从各种数据源头,比如数据库,应用程序,APIs,网站,或者纯文本文件里面抽取/获取数据的过程。比如清洗,组织,转换,计算,应用规则规范数据使得数据成为标准的格式的数据。L指代Data loading,是把数据load到指定的系统(目的地),比如数据库,data warehouse,涉及到数据的增add(insert),删delete,改动update。它通常是前面ET的结果。浅谈一下ETL的知识。

2023-05-08 20:06:44 492

原创 职业‘被选择’之——数据工程师

数据工程师主要负责开发、维护和优化数据基础设施,包括数据管道、数据仓库、ETL流程、数据架构等等。数据分析师则是利用数据来解决业务问题的专业人士。数据分析师需要熟悉统计学和数据分析工具,例如Excel、Tableau、Python等,并且需要有深入的业务理解,以便将数据结果转化为对业务决策的支持。因此,数据工程师更多地关注于数据的管道和架构,而数据分析师则更注重于数据的分析和洞察。数据工程师和数据分析师是数据领域中两个不同的职业角色,虽然这两个角色之间存在一些交叉,但是它们的职责和技能集合还是有所不同。

2023-05-01 19:11:53 115

原创 算法基础简介

基本概念一、数据结构抽象化过程(procedural abstraction):把问题看成一个黑盒模型,人们(/用户)不需要关心这个黑盒里面的细节,只需要知道如何使用它。数据抽象化(data abstraction)/ 抽象数据类型(abstract data type,ADT):是关于我们如何看待和处理数据的一种逻辑描述。它允许程序员仅仅关心这个数据代表的是什么(也就是它的声明(states)以及它的方法(methods)),而不用关心最后如何构建它(implementation- indep

2021-11-25 09:11:22 671

原创 机器学习算法(二)

剪枝分类树 Pruned classification tree一棵有着更少的分支的小树,方差一般比较小,也很方便人们解释,但是以偏差为代价的。另一个方法是设定RSS的阈值,当树的分枝超过这个阈值之后,就停止继续往下生长(分支)。这个方法存在问题,某些看似不值得继续分割的点,实际上继续往下分,RSS会更小。所以,我们可以考虑先初始化一棵大树T0,然后一点一点地剪枝,剪到我们需要的那一棵小树(subtree)。对于分类树来说,RSS就是分错的比例(classification error rate)。实际

2021-09-18 07:19:15 255

原创 机器学习算法(一)

机器学习算法(一)简单起见,该系列算法多只考虑二分类情况朴素贝叶斯(决策)分类器(na ̈ıve classifier)对于每一个特征,都有一个被归为两种不同类别的概率大小。这里的概率是条件概率(conditional probabilities),可以用频率去计算(朴素贝叶斯)。贝叶斯分类器有一个贝叶斯决策边界(Bayes decision boundary),也就是概率等于1/2。比如下图的紫色边界线,大于1/2概率分为其一边,小于的分到另一边。逻辑斯蒂回归(Logistic R

2021-09-16 06:36:56 332

原创 机器学习简介

机器学习简介机器学习是一种运用计算机算法和统计模型生成信息的数据分析方法 通常运用于解决预测和分类问题 建立在最小化损失函数(loss function)之上 设计目的主要是想相对简单地处理庞大的数据 伴随分析师那有限的输入 通常数据集会被分为一个训练集,一个测试集和/或检验集 或者还可以用到交叉验证cross- validation 经常被分为监督和无监督学习 但是,也有半监督和增强学习分类:线性判别分析Linear Discriminant Analysis (LDA)习题参考

2021-05-12 19:42:33 115

var-b.pdf

var-b.pdf

2024-05-28

biiiimplmonifaq_5.1.pdf

biiiimplmonifaq_5.1.pdf

2024-03-24

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除