自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

冯·诺依曼

If people do not believe that mathematics is simple, it is only because they do not realize how complicated life is.

  • 博客(8)
  • 收藏
  • 关注

原创 博客目录与概览

从即日起,我将开始开始着手写作《深入理解机器学习》分类下的文章。《深入理解机器学习》不仅仅把目光局限机器学习算法的推导与实现,更多的会将目光聚焦于从数学、统计学以及统计学习的角度来深入理解机器学习算法,除此之外,我还会讨论各个机器学习算法局限与瓶颈,纵横向比较各种机器学习算法的优劣等。在详细介绍机器学习算法的同时,我还会通过Python和Scala给出相关项目的实战代码。所以,想深入学习机器学习的..............................

2019-08-31 10:18:26 417419 27

原创 维度建模——维度建模与数据仓库概述

分类目录:商业智能《维度建模》总目录数据仓库和商业智能(Data Warehousing and Business Intelligence,DW/BI)行业渐趋成熟。尽管初期仅有部分大型公司采用,但从那时起,DW/BI逐渐为各种规模的公司所青睐。业界已建立了数以千计的DW/BI系统。随着数据仓库原子数据的不断增加以及更新越来越频繁,数据容量不断增长。在我们的职业生涯中,我们见证了数据库容量从M...

2019-08-28 20:31:14 54099

原创 数据仓库Hive编程——HiveQL的数据定义(六):修改表

大多数的表属性可以通过ALTER TABLE语句来进行修改。这种操作会修改元数据,但不会修改数据本身。这些语句可用于修改表模式中出现的错误、改变分区路径,以及其他一些操作。ALTER TABLE仅仅会修改表元数据,表数据本身不会有任何修改。需要用户自己确认所有的修改都和真实的数据是一致的。表重命名使用以下这个语句可以将表log_messages重命名为logmsgs:ALTER TABLE...

2019-08-08 20:07:43 12027 1

原创 数据仓库Hive编程——HiveQL的数据定义(五):删除表

Hive支持和SQL中DROP TABLE命令类似的操作:DROP TABLE IF EXISTS employees;可以选择是否使用IF EXITST关键字。如果没有使用这个关键字而且表并不存在的话,那么将会抛出一个错误信息。对于管理表,表的元数据信息和表内的数据都会被删除。事实上,如果用户开启了Hadoop回收站功能(这个功能默认是关闭的),那么数据将会被转移到用户在分布式文件系统中...

2019-08-08 20:07:18 15040

原创 数据仓库Hive编程——HiveQL的数据定义(四):分区表和管理表

数据分区的一般概念存在已久。其可以有多种形式,但是通常使用分区来水平分散压力,将数据从物理上转移到和使用最频繁的用户更近的地方,以及实现其他目的。Hive中有分区表的概念。我们可以看到分区表具有重要的性能优势,而且分区表还可以将数据以一种符合逻辑的方式进行组织,比如分层存储。我们首先会讨论下分区管理表。重新来看《数据仓库Hive编程》中前面几篇文章日到的的那张emplyees表并假设我们在一个...

2019-08-08 20:06:44 14602 1

原创 数据仓库Hive编程——HiveQL的数据定义(三):创建表

CREATE TABLE语句遵从SQL语法惯例,但是Hive的这个语句中具有显著的功能扩展,使其可以具有更广泛的灵活性。例如,可以定义表的数据文件存储在什么位置、使用什么样的存储格式,等等。前面的文章我们在”中已经讨论了很多种存储格式,同时在后续的文章中我们将会再次探讨一下更加高级的格式。本文中,我们会讨论其他一些在CREATE TABLE...

2019-08-08 20:06:13 15917 1

原创 数据仓库Hive编程——HiveQL的数据定义(二):修改数据库

用户可以使用ALTER DATABASE命令为某个数据库的DBPROPERTIES设置键值对属性值,来描述这个数据库的属性信息。数据库的其他元数据信息都是不可更改的,包括数据库名和数据库所在的目录位置:hive> ALTER DATABASE financials SET DBPROPERTIES ('edited-by' = 'Joe Dba');同时,当前也没有办法可以删除或者“重...

2019-08-08 20:05:27 14138

原创 数据仓库Hive编程——HiveQL的数据定义(一):Hive中的数据库

HiveQL是Hive查询语言。和普遍使用的所有SQL方言一样,它不完全遵守任一种ANSI SQL标准的修订版。HiveQL可能和MySQL的方言最接近,但是两者还是存在显著性差异的。Hive不支持行级插入操作、更新操作和删除操作。Hive也不支持事务。Hive增加了在Hadoop背景下的可以提供更高性能的扩展,以及一些个性化的扩展,甚至还增加了一些外部程序。《HiveQL的数据定义》的内容是H...

2019-08-08 20:04:46 20988 1

思维导图源文件《预训练模型总览》

该文件为《预训练模型总览》思维导图源文件,可自行编辑并输出相应图片或自行学习保存使用,详细内容可以参考:文章《自然语言处理从入门到应用——预训练模型总览》,文章链接:https://machinelearning.blog.csdn.net/article/details/131404053 从大量无标注数据中进行预训练使许多自然语言处理任务获得显著的性能提升。总的来看,预训练模型的优势包括: - 在庞大的无标注数据上进行预训练可以获取更通用的语言表示,并有利于下游任务 - 为模型提供了一个更好的初始化参数,在目标任务上具备更好的泛化性能、并加速收敛 - 是一种有效的正则化手段,避免在小数据集上过拟合,而一个随机初始化的深层模型容易对小数据集过拟合 该思维导图源文件就是各种预训练模型的思维导图,其分别按照词嵌入(Word Embedding)方式分为静态词向量(Static Word Embedding)和动态词向量(Dynamic Word Embedding)方式分类、按照监督学习和自监督学习方式进行分类、按照拓展能力等分类方式展现,用户可以自行编辑修改。

2023-06-27

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除