- 博客(571)
- 资源 (2)
- 收藏
- 关注
原创 增强学习和蒙特卡洛树搜索算法详细解析
阿尔法狗(AlphaGo)是谷歌旗下DeepMind开发的一个著名的增强学习算法,它在围棋领域取得了显著的成就。本文主要探讨其中两个重要的算法:增强学习算法和蒙特卡洛树搜索算法。
2023-11-16 14:23:39 930
原创 人工智能:CNN(卷积神经网络)、RNN(循环神经网络)、DNN(深度神经网络)的知识梳理
CNN 主要用于处理图像数据,RNN 用于处理序列数据,而 DNN 是一个通用的深度神经网络架构,可以应用于各种不同类型的数据。这些神经网络架构也可以结合使用,以解决复杂的多模态问题。
2023-10-24 17:58:05 8566 6
原创 Hadoop简介之望见数据湖
1 Hadoop概述随着信息化时代的来临,数据信息呈爆炸式增长。IBM的研究称,90%的人类文明数据是近两年产生的,而到了2020年,全球产生的数据量将是今天的44倍。传统的方法已难以应对越来越多的海量数据,因此海量数据的处理方法成为研究热点。大数据技术研究与应用推动互联网产业的快速发展,同时企业也促进了大数据技术的“新陈代谢”。在国外的计算机行业,Yahoo,Linkedin,Fackbook,eBay等企业都着手搭建Hadoop平台,努力推动Hadoop技术的发展并完善Hadoop项目。在国内,随着
2020-09-28 15:09:37 2619 2
原创 Greenplum安装时修改gpssh-exkeys中SSH免密登录端口
SSH免密登录的默认端口号为22,如果需要使用2226端口,可以修改如下地方298 def testAccess(hostname):299 '''300 Ensure the proper password-less access to the remote host.301 Using ssh here also allows discovery of remote host keys *not*302 reported by ssh-keyscan.303...
2020-09-08 14:13:29 3311 2
原创 机器学习之留出法中的分层采样和多次切分
本身是数据划分的一种方式,将数据集分为训练集和测试集。为了提升留出法的评估效果,常常结合和等技术。以下是详细说明这些方法如何增强留出法的效果。该方法简单、直观,但它的局限性是评估结果依赖于单次数据划分,可能导致过度依赖划分的方式而产生不稳定的评估结果。是指在划分数据集时,按照数据集中的类别分布(特别适用于分类问题)进行分层。每个类别都按比例被抽取到训练集和测试集当中,以确保每个类别在训练集和测试集中的分布尽量接近原始数据集。
2025-01-10 15:57:07 614
原创 机器学习之自助法
自助法是一种高效且灵活的验证方法,尤其适用于数据较少或需要多次评估的情况。通过有放回抽样的方式生成多个训练集,能够提供稳定的模型评估结果,并为模型参数提供置信区间等统计推断。然而,计算成本较高,且由于训练集和验证集可能存在重叠,评估结果可能存在一定的偏差。**自助法(Bootstrap Method)**是一种基于有放回抽样的统计方法,广泛应用于模型评估、模型选择和统计推断中。假设我们有一个小型数据集,包含1000个样本,目标是评估一个分类模型(如逻辑回归)的性能。
2025-01-10 15:01:50 234
原创 机器学习之过拟合(算法参数,超参数) 欠拟合(模型参数)
通过控制算法参数和超参数,我们可以有效地缓解过拟合和欠拟合,并使模型的复杂度达到最佳平衡。:当模型的参数过多时(自由度高),它能够拟合训练数据中的噪声和异常点,导致过拟合。:模型中的权重过大可能导致输出对输入的微小变化过于敏感,从而适配训练数据的噪声。:使用神经网络对手写数字进行分类(MNIST数据集)。:训练集准确率接近100%,但测试集准确率仅为70%。:使用决策树对房价进行回归预测。:训练集和测试集准确率都较低。
2025-01-10 14:53:46 210
原创 机器学习之过拟合和欠拟合(二)
过拟合:减少模型复杂度,正则化,增加数据量,使用早停。欠拟合:提高模型复杂度,优化特征,增加训练时间,调整超参数。
2025-01-10 14:49:28 204
原创 机器学习之奥卡姆剃刀定律
奥卡姆剃刀是一个强有力的原则,广泛应用于科学、哲学、工程等领域。它帮助我们专注于本质问题,避免复杂性带来的困惑。然而,在实际应用中,既要遵循简单性,也不能忽略复杂性背后的潜在意义。最好的模型或理论是**既简单又能有效解释现象的**解决方案。
2025-01-10 14:42:38 289
原创 机器学习之经验误差和泛化误差
经验误差是指模型在训练数据集上的平均误差。它衡量的是模型对已知数据的拟合能力。泛化误差是指模型在未知数据或测试数据上的平均误差,反映了模型的推广能力。好的模型应具有较低的泛化误差。
2025-01-10 14:37:51 301
原创 感冒为什么会引起头痛
鼻窦附近有丰富的神经分布,当压力增加时,这些神经会被刺激,产生头痛感,尤其在前额或眼眶周围更加明显。同时,身体在应对病毒时会代谢产生某些副产物,这些物质可能影响神经系统,增加头痛的可能性。脱水会减少脑组织周围的液体缓冲层,刺激头部的疼痛感受器,从而引起头痛。感冒时,由于身体不适,人们可能长时间保持固定姿势或处于紧张状态,导致颈部和头部肌肉紧张,进一步引发紧张性头痛。如果感冒伴随的头痛特别严重或持续时间较长,建议及时就医,排除其他可能的原因(如偏头痛、脑膜炎等)。血管的扩张或收缩可能刺激三叉神经,引发头痛。
2024-12-24 14:51:22 175
原创 柏拉图《理想国》读后感
柏拉图的《理想国》(The Republic)是一部不朽的哲学经典,被誉为西方哲学的奠基之作。在当代社会,我们既要继承《理想国》中的智慧,努力追求正义、善与和谐,也需要批判性地看待其局限,结合现实情况寻找更切实可行的解决方案。然而,柏拉图的哲学王思想提醒我们,领导者的素质和品格在社会治理中仍然具有关键作用。他认为,理想的城邦必须由哲学家来统治,因为哲学家追求真理,并具备智慧与道德的双重品质。当代社会的多样性和复杂性使得乌托邦式的社会构想难以实现,但柏拉图的思想提供了一个审视现实社会的参照系。
2024-12-24 10:13:51 462
原创 百科全书式学者-亚里士多德
亚里士多德一生致力于探索世界的本质与人类的价值,他的思想体系涵盖了从微观到宏观、从自然到社会的方方面面。他为西方思想提供了坚实的基础,其影响不仅局限于古代,也延续到现代。
2024-12-24 10:10:40 340
原创 部署 Apache Samza 和 Apache Kafka
部署 Apache Samza 和 Apache Kafka 的流处理系统可以分为以下几个步骤,涵盖环境准备、部署细节和生产环境的优化。
2024-12-19 17:05:10 401
原创 Apache Samza开源的分布式流处理框架
Apache Samza 是一个开源的分布式流处理框架,用于处理实时数据流和分布式任务。它最初由 LinkedIn 开发,并在 2014 年捐赠给 Apache 软件基金会。Samza 的设计目标是为开发人员提供一个易用、可靠、高效的流处理工具。
2024-12-19 17:03:48 322
原创 深度学习之Autoencoders & GANs for Anomaly Detection 视频异常检测
在视频异常检测(Video Anomaly Detection)任务中,和是常用的深度学习模型,它们在检测视频中的异常事件(如入侵、破坏、非法行为等)方面发挥着重要作用。通过分析视频帧的时空特征,这些模型能够识别出与正常行为模式不同的异常模式。
2024-12-13 15:25:18 334
原创 深度学习之 Deep Video Super-Resolution (VSRNet)
深度视频超分辨率(VSRNet) 是一种专门设计用于提升低分辨率视频帧分辨率的深度学习模型,旨在提高视频的空间和时间质量。VSRNet 是 *视频超分辨率(VSR)* 领域的一部分,该领域的目标是利用深度神经网络将低分辨率视频放大至更高分辨率。以下是 VSRNet 的概述及其关键特点:VSRNet 代表了视频超分辨率的一个重要进展,利用深度学习技术同时提升视频的空间和时间质量。通过考虑运动和帧间依赖性,VSRNet 改进了传统的单帧图像超分辨率方法,并在多个行业(如娱乐、安防和医疗)中找到了应用。
2024-12-13 15:15:20 266
原创 es的join是什么数据类型
`join` 数据类型用于在同一个索引中建立父子文档之间的关系,允许你在一个索引内表示层级结构或关联关系。通过 `join` 字段,你可以定义不同类型的文档(如父文档和子文档),并指定它们之间的关系。
2024-12-11 14:52:58 250
原创 在Elasticsearch (ES) 中,integer 和 integer_range的区别
在Elasticsearch (ES) 中,integer和是两种不同的字段类型,它们用于存储和查询不同类型的数据。integergtelteinteger如果你只需要存储和查询单个整数值,应该使用integer类型。而如果你需要表示和查询整数范围,则应选择类型。在Elasticsearch (ES) 中创建和索引integer和类型的字段,你需要首先定义一个映射(mapping),然后使用这个映射来创建索引,并最终向索引中添加文档。
2024-12-11 14:49:47 681
原创 es有string类型字段吗
虽然旧版本的 Elasticsearch 可能仍然支持 `string` 类型,但强烈建议使用 `text` 和 `keyword` 类型来替代 `string`,以获得更好的性能和更清晰的数据模型。
2024-12-11 14:46:39 253
原创 spring学习笔记之静态代理和动态代理
在 Spring 开发中,静态代理和动态代理是实现面向切面编程(AOP)的两种常见方式。两者的主要区别在于代理类的生成时间和方式。
2024-12-03 15:02:51 181
原创 《功夫熊猫》系列动画电影赏析
《功夫熊猫》系列是一部融幽默、情感、艺术与文化于一体的经典动画作品。它通过一个简单的故事,传递了深刻的主题:相信自己、接受过去、找到定位,同时以中国文化为载体,实现了中西文化的完美融合。这不仅是一部适合儿童的动画电影,更是一部值得各年龄层观众反复品味的佳作。
2024-11-28 15:01:22 568
原创 机器学习之RLHF(人类反馈强化学习)
RLHF(Reinforcement Learning from Human Feedback,基于人类反馈的强化学习) 是一种结合强化学习(RL)和人类偏好的方法,用于训练符合人类期望的模型。它通过引入人类反馈的奖励信号,指导智能体的学习过程,使其行为更符合人类的价值和目标。RLHF 在训练大规模语言模型(如 OpenAI 的 GPT 系列)和机器人、推荐系统等领域都取得了显著效果。以下是其关键思想、主要流程及应用解析。
2024-11-28 14:57:39 672
原创 机器学习之DeepMind推出的DreamerV3
DreamerV3 是 DeepMind 提出的一个模型为中心的强化学习(Model-Based Reinforcement Learning, MBRL)算法,旨在实现通用性和高效性。它继承了 Dreamer 系列算法的核心思想,同时引入了一些重要改进,使其在多样化的任务上表现优异。
2024-11-28 14:46:32 259
原创 《寂静之地》电影赏析
《寂静之地》一二部的成功,不仅仅是因为其恐怖元素的创新,更因为它在构建紧张氛围的同时,深入探讨了家庭、亲情、生存和牺牲等多重主题。第一部通过极简的叙事、巧妙的音效设计和深刻的家庭情感,呈现了一个令人窒息的恐怖世界。而第二部则在此基础上拓展了世界观,深化了角色的成长与变化,同时也强化了孤独与复仇的主题。两部电影相辅相成,不仅让观众感受到紧张与恐惧,更让人对生命、家庭和亲情有了更深的思考。
2024-11-27 11:19:46 913
原创 机器学习之量子支持向量机(QSVM)附代码
量子支持向量机(Quantum Support Vector Machine, QSVM)是一种结合量子计算与经典支持向量机(SVM)的机器学习算法。QSVM 通过利用量子计算的特性(如量子叠加和量子干涉),加速数据处理和核函数的计算,从而在高维空间中实现更高效的分类任务。
2024-11-21 17:24:03 344
原创 机器学习之量子机器学习(Quantum Machine Learning, QML)
量子机器学习(Quantum Machine Learning, 简称 QML)是一门结合了量子计算和机器学习的前沿学科,它利用量子计算的特性(如量子叠加、量子纠缠和量子并行性)来解决机器学习中的复杂问题或加速传统算法的计算过程。QML 有潜力在大规模数据处理、优化和建模领域实现突破。
2024-11-21 15:05:45 591
原创 元数据管理和数据质量管理工具
元数据管理工具旨在自动化采集、存储和展示元数据,并提供可视化的元数据血缘和搜索功能。数据质量管理工具用于监控、清洗、修复和优化数据,确保数据的可信度。
2024-11-18 14:43:26 268
原创 Elasticsearch开启认证及kibana密码登陆
Elasticsearch不允许root用户运行,使用用户为其创建一个用户,为用户配置密码,并切换到用户。Elasticsearch(简称ES)是一个基于Lucene的搜索服务器。它提供了一个分布式、多用户能力的全文搜索引擎,基于RESTful web接口。Elasticsearch是用Java语言开发,并作为Apache许可条款下的开放源码发布,是当前流行的企业级搜索引擎。ES能快速地储存、搜索和分析海量数据。
2024-11-18 12:05:39 366
原创 为什么hbase在大数据领域渐渐消失
HBase 在过去为大数据存储提供了可靠的分布式解决方案,但随着数据处理需求的多样化和复杂化,企业在实时查询、多模型支持、易用性和维护成本等方面有了更高的要求。HBase 的运维复杂性和实时性限制使其在应对新兴业务需求上略显不足,逐渐被性能更优、支持更丰富的数据模型和 SQL 查询的新型数据库替代。因此,HBase 的使用逐渐减少,但在一些特定的批处理、历史数据归档和结构化数据存储场景中,HBase 仍然具有优势和应用价值。
2024-11-14 14:02:16 442
原创 hbase未来的发展趋势
HBase 未来的发展趋势将围绕 **高性能、云原生、支持实时和多模型处理** 以及 **智能化运维** 进行拓展和优化。通过增强与云服务、AI、边缘计算、事务支持和数据安全等方面的结合,HBase 将会更加适应多样化的数据处理场景。
2024-11-14 13:57:23 563
原创 redis和mongodb等对比分析
选择 redis 还是 MongoDB取决于具体的使用场景和需求。如果需要高速缓存、低延迟,选择 Redis;如果需要存储大规模的文档数据并执行复杂的查询,MongoDB 会是更好的选择。
2024-11-13 13:53:13 396 1
原创 kv数据库
KV 数据库是一种非常简单高效的数据库类型,适合于高性能、低延迟的数据存储和快速检索。它广泛应用于缓存、会话存储和配置管理等场景。虽然 KV 数据库提供了很高的读写性能,但它不适合进行复杂查询操作,因此在需要复杂查询或事务支持的场景下,可能需要考虑其他类型的数据库。
2024-11-13 13:51:52 183
原创 flink sql + kafka + mysql 如何构建实时数仓
Kafka:作为流数据平台,负责接收和传输来自不同源系统(如应用日志、传感器数据、交易系统等)的数据。Flink SQL:使用 Apache Flink 提供的 SQL 引擎进行流式数据处理、转换、聚合和窗口计算等操作。Flink SQL 使得实时数据流的处理变得更简单。MySQL:作为下游持久化存储,存储数据仓库的结构化数据,并支持实时查询和分析。通过 Kafka 实现 ODS、DWD 和 DWS 分层架构,每一层都通过 Kafka 作为数据传输管道,利用 Flink SQL 进行数据处理。
2024-11-13 12:02:36 958
seatunnel 支持hive jdbc
2023-07-28
dataCollection安装jar包0.07版本
2023-01-16
hbase-manager安装包,已编译
2022-11-14
大数据之湖仓一体,未来如何发展
2024-04-02
TA创建的收藏夹 TA关注的收藏夹
TA关注的人