自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(286)
  • 资源 (73)
  • 收藏
  • 关注

原创 Azure上基于OpenAI GPT-4模型验证行政区域数据的设计方案

通过此方案,可高效检测数据有效性并提供修正建议,结合Azure与OpenAI能力实现自动化数据治理。

2025-02-14 17:46:43 153

原创 AWS上基于Llama 3模型检测Amazon Redshift里文本数据的语法和语义错误的设计方案

该方案可实现每小时处理约10万条记录(基于LLama3-70B的默认TPS限制),建议通过A/B测试确定最佳批处理大小。五、Redshift表结构设计。三、实现流程(批处理模式)

2025-02-14 12:18:15 191

原创 AWS上基于高德API验证Amazon Redshift里国内地址数据正确性的设计方案

该方案通过无服务架构实现高可扩展性,结合分页查询和批量更新确保高效处理海量数据,同时通过密钥托管和错误重试机制保障安全性及可靠性。color:#333;color:#333;fill:none;是否启动Lambda从Secrets Manager获取密钥连接Redshift查询待处理地址是否还有未处理数据?分批读取N条地址并发调用高德API验证解析响应并标记有效性生成批量更新SQL关闭数据库连接发送成功通知到SNS。

2025-02-14 09:22:16 692

原创 PySpark查询Dataframe中包含乱码的数据记录的方法

首先,用PySpark获取Dataframe中所有非ASCII字符,找到其中的非乱码字符。

2025-02-14 07:36:19 184

原创 Python Pandas查询Dataframe中包含乱码的数据记录的方法

然后,将非乱码字符加入排除的字符中,用Python Pandas检查Dataframe中包含乱码字符的记录并导出Excel文件。首先,用Python Pandas获取Dataframe中所有非ASCII字符,找到其中的非乱码字符。

2025-02-14 07:32:16 40

原创 PySpark获取Dataframe中所有非ASCII字符

【代码】PySpark获取Dataframe中所有非ASCII字符。

2025-02-13 18:01:40 221

原创 Python Pandas获取Dataframe中所有非ASCII字符

【代码】Python Pandas获取Dataframe中所有非ASCII字符。

2025-02-13 17:58:55 55

原创 Azure Synapse Dedicated SQL Pool统计指定表中各字段的空值、空字符串或零值比例

临时表存储最终结果集。

2025-02-13 15:23:23 271

原创 Amazon Redshift统计指定表中各字段的空值、空字符串或零值比例

【代码】Amazon Redshift统计指定表中各字段的空值、空字符串或零值比例。

2025-02-13 14:11:10 74

原创 Apache Hive用PySpark统计指定表中各字段的空值、空字符串或零值比例

str。

2025-02-13 13:04:59 201

原创 Snowflake统计指定表中各字段的空值、空字符串或零值比例

【代码】Snowflake统计指定表中各字段的空值、空字符串或零值比例。

2025-02-13 13:00:51 443

原创 PostgreSQL统计指定表中各字段的空值、空字符串或零值比例

【代码】PostgreSQL统计指定表中各字段的空值、空字符串或零值比例。

2025-02-13 10:36:19 151

原创 Teradata统计指定表中各字段的空值、空字符串或零值比例

该方案通过动态SQL自动遍历所有表字段,相比手动编写可大幅提升效率,特别适合需要分析大量表结构的场景。

2025-02-13 09:41:38 102

原创 Oracle PL/SQL统计指定表中各字段的空值、空字符串或零值比例

【代码】Oracle PL/SQL统计指定表中各字段的空值、空字符串或零值比例。

2025-02-13 08:48:56 189

原创 MySQL统计指定表中各字段的空值、空字符串或零值比例

【代码】MySQL统计指定表中各字段的空值、空字符串或零值比例。

2025-02-13 08:46:19 99

原创 SQL Server统计指定表中各字段的空值、空字符串或零值比例

【代码】SQL Server统计指定表中各字段的空值、空字符串或零值比例。

2025-02-13 07:09:16 445

原创 PySpark查找Dataframe中的非ASCII字符并导出Excel文件

【代码】PySpark查找Dataframe中的非ASCII字符并导出Excel文件。

2025-02-12 20:34:40 334

原创 Python Pandas查找Dataframe中的非ASCII字符并导出为Excel文件

【代码】Python Pandas查找Dataframe中的非ASCII字符并导出为Excel文件。

2025-02-12 18:29:08 487

原创 AWS门店人流量数据分析项目的设计与实现

这是一个AWS的数据分析项目,关于快消公司门店手机各个门店进店人流量和各个产品柜台前逗留时间(利用IoT设备采集)和销售数据之间的统计分析,必须用到但不限于Amazon Kensis Data Stream,Spark Streaming,Spark mllib,Kafka,S3和Redshift。门店进店人数与各产品柜台前逗留时间受多方面因素的影响,需要综合考虑并采取相应的措施来提升。已知门店进店人数与各产品柜台前逗留时间主要与以下因素有关:门店进店人数。

2025-02-05 22:06:38 972

原创 在AWS上设计与实现个人财务助理的Web应用程序

设计AWS上的个人财务助理的Web应用程序,它用Python+Flask构建可以从本地批量上传特定格式的银行对账单pdf文件,存储到S3,解析其中的内容数据,并将解析出的数据内容存储到Aurora数据库。它可以适配电脑和移动端的浏览器,网页使用前端框架优化加载性能,并使用静态文件及js缓存和分发加快浏览器的加载速度,有一定网络安全性,可以对流量进行监控,抵抗DDOS网络攻击,对抗XSS和SQL注入等对Web应用程序的攻击。后端设计考虑应用程序和数据库的负载均衡。

2025-02-05 19:06:44 772

原创 AWS上设计可图形化创建处理逻辑的智能电话语音客服程序的流程和关键代码

,},

2025-02-05 09:02:55 1280

原创 证券和基金行业实现混沌工程应用

建信金科的混沌工程实践:建信金科通过引入混沌工程,建立了故障演练平台,并进行了常态化的故障演练。混沌工程在证券和基金方面有着广泛的应用前景,它能够帮助企业提升系统的稳定性和弹性,确保业务在面临各种故障时能够迅速恢复并保持连续性。压力测试:混沌工程还可以用于压力测试,通过模拟高并发、大数据量等极端场景,评估系统的性能瓶颈和容量极限,为系统的扩容和优化提供依据。验证系统健壮性:通过混沌工程,可以验证证券和基金交易系统的架构容灾能力和分布式弹性,确保系统在面临故障时能够迅速恢复并保持稳定。

2025-02-04 15:03:46 1015

原创 自然语言生成(NLG)算法模型评估方案的硬件配置、系统架构设计、软件技术栈、实现流程和关键代码

智能化对话中的自然语言生成(NLG)算法模型评估是一个复杂而多维的过程,它涉及多个评估指标和策略,以确保生成的文本质量、准确性和流畅性。评估指标计算:根据生成的对话文本和测试数据集中的答案(如果有的话),计算BLEU、ROUGE等评估指标的分数,以量化评估生成文本的质量。• 困惑度(Perplexity)是常用的自动评估指标,通过计算生成的文本中每个词的预测概率的逆数之和来评估。• 如BLEU和ROUGE等指标,通过对比模型生成的文本与人工参考文本,来量化评估生成文本的质量。

2025-02-03 21:31:02 942

原创 用Impala对存储在HDFS中的大规模数据集进行快速、实时的交互式SQL查询的具体步骤和关键代码

AWS EMR(Elastic MapReduce)中应用Impala的典型案例,主要体现在大型企业和数据密集型组织如何利用Impala对存储在Hadoop分布式文件系统(HDFS)中的大规模数据集进行快速、实时的交互式SQL查询。以下是一个具体的案例说明:案例背景某知名电商平台,作为领先的B2B跨境电子商务交易平台,在品牌、技术、运营和用户四大维度上建立了竞争优势。为了进一步提升数据驱动决策的能力,该平台决定构建智能湖仓架构,实现数据的集中存储、管理和高效分析。

2025-02-03 16:46:45 706

原创 流数据库中的RisingWave和Materialize

流数据库(Streaming Database)是一种专门设计用于处理大量实时流数据的数据库,它能够在数据生成时立即进行处理,从而实现实时洞察和分析。RisingWave和Materialize都是强大的流数据库技术,它们各自具有独特的技术特点和应用场景。使用RisingWave,可以创建一个表来存储销售数据,并定义一个物化视图来计算每个商品的销售总额和平均销售速度。Materialize是一款专为操作性工作负载设计的云原生数据仓库,它将数据库和流处理引擎融合在一起,提供了实时的数据流处理和分析能力。

2025-02-03 13:55:59 615

原创 Apache Iceberg数据湖技术在海量实时数据处理、实时特征工程和模型训练的应用技术方案和具体实施步骤及代码

特别是在特征工程和模型训练方面,Iceberg的支持使得字节跳动能够快速地增删和回填特征,加速模型迭代。通过Iceberg,字节跳动实现了高性能特征读取和高效特征调研,从而提升了机器学习模型的训练效率和效果。Iceberg作为数据湖,以支持其机器学习平台中的特征存储。Iceberg的分层结构、快照机制、并发读写能力以及模式演进等特性,使得它能够高效地处理海量数据,并且保证数据的一致性和可用性。Apache Iceberg在处理海量实时数据、支持实时特征工程和模型训练方面的强大能力。Iceberg特征存储。

2025-02-03 12:16:49 1082

原创 Apache Hudi数据湖技术应用在网络打车系统中的系统架构设计、软硬件配置、软件技术栈、具体实现流程和关键代码

使用Hudi后,网络打车系统的写入效率相比之前的Spark作业提高了100多倍,同时满足了数据查询的性能和低延迟要求。例如,使用快照查询来获取某个时间点的数据快照,使用增量查询来只查询自上次查询以来的新数据。网络打车系统使用Hudi数据湖技术来跟踪记录每一次打车过程的所有事件,包括打开打车应用、发起打车、上车、到达目的地下车以及对司机的评价打分等。网络打车系统利用Hudi数据湖技术成功地解决了其大规模数据处理和分析的难题,提高了数据处理效率和准确性,为公司的业务发展提供了有力的支持。

2025-02-03 10:12:15 1561

原创 流媒体娱乐服务平台在AWS上使用Presto作为大数据的交互式查询引擎的具体流程和代码

一家流媒体娱乐服务平台拥有庞大的用户群体和海量的数据。为了高效处理和分析这些数据,它选择了Presto作为其在AWS EMR上的大数据查询引擎。在AWS EMR上使用Presto取得了显著的成果和收获。这些成果不仅提升了数据查询效率,降低了运维成本,还促进了业务的创新与发展。实施过程:Presto集群部署:在AWS EMR上部署了Presto集群,该集群与Hive Metastore和Amazon S3集成,成为大数据仓库环境的主干。

2025-02-02 20:42:33 1451

原创 PySPARK带多组参数和标签的SparkSQL批量数据导出到S3的程序

设计一个基于多个带标签SparkSQL模板作为配置文件和多组参数的PySPARK代码程序,实现根据不同的输入参数自动批量地将数据导出为Parquet、CSV和Excel文件到S3上,标签和多个参数(以“_”分割)为组成导出数据文件名,文件已经存在则覆盖原始文件。len。

2025-02-02 12:14:35 721

原创 AWS EMR使用Apache Kylin快速分析大数据

结合AWS的强大计算能力和Kylin的数据分析能力,企业可以加速数据分析过程,提升数据挖掘能力。在AWS Elastic MapReduce(EMR)集群上部署和使用Apache Kylin,以实现对大规模数据集的快速分析,企业可以充分利用云计算的强大资源和Kylin的数据分析能力,实现快速、高效的数据分析。• 配置集群参数,包括选择EMR版本(如emr-5.21.0或更高版本,以确保支持Apache Kylin)、实例类型、数量以及网络设置等。• 在AWS控制台中选择EMR服务,点击“创建集群”。

2025-02-02 11:22:30 1039

原创 在AWS上使用Flume搜集分布在不同EC2实例上的应用程序日志具体流程和代码

在AWS上使用Flume搜集日志的一个典型应用案例涉及将分布在不同EC2实例上的应用程序日志实时收集并集中存储到Amazon S3或Amazon HDFS(如果已部署)中,以供后续分析和处理。• 在存储系统中,可以对这些日志进行进一步的处理和分析,如使用Amazon Athena对S3中的日志进行查询,或使用Hadoop/Spark对HDFS中的日志进行分析。• 性能调优:根据日志产生的速率和存储系统的性能,调整Flume的配置参数(如Channel的容量、Sink的批处理大小等)以优化性能。

2025-02-02 11:03:41 1186

原创 AWS EMR上的Spark日志实时搜索关键指标网页呈现的设计和实现

该方案可实现每秒处理万级日志事件,并在5秒内完成从日志产生到可视化展示的全流程。建议根据实际业务需求调整时间窗口和聚合粒度,可通过增加EMR Task节点实现水平扩展。

2025-02-02 08:16:30 1273

原创 计算满足特定条件的素数在全体素数中的密度极限值,并将该极限值乘以10^7后向下取整的解题思路

定义对于正整数 n,令 v_p(n) 表示使得 p^v\mid n 的最大整数 v。对于素数 p 和 a\not\equiv0\pmod{p},令 \text{ord}_p(a) 表示使得 a^o\equiv1\pmod{p} 的最小正整数 o。对于 x > 0,令\text{ord}{\substack{q\leq x\q\text{ 为素数}}}q^{v_q(\text{ord}{\substack{q > x\q\text{ 为素数}}}q^{v_q(p - 1)}问题。

2025-02-01 13:31:56 658

原创 Python获取能唯一确定一棵给定的树的最少数量的拓扑序列

称一个1n的排列pp1​p2​⋯pn​是一棵n个点、点编号为1至n的树T的拓扑序列,当且仅对于任意1≤in,恰好存在唯一的ji满足pi​与pj​之间有连边。给定树T,你需要给出尽可能少的该树的拓扑序列p1​p2​⋯pk​,使得有且仅有树T满足p1​p2​⋯pk​均为该树的合法拓扑序列。【输入格式】从标准输入读入数据。本题有多组测试数据。输入第一行一个正整数T。

2025-02-01 08:06:02 1151

原创 C++计算给定序列在多次修改前后满足特定条件的极大匹配方案的大小

给定长度为n的整数序列a1​a2​an​和长度为n的01序列b1​b2​bn​。对于1≤ij≤n,称二元组ij构成匹配当且仅当bi​0且bj​1。定义极大匹配方案Smax​uv∈Smax​1≤uv≤nuv1≤i≤nSmax​au​av​uv∑uv∈Smax​​au​av​∣Smax​∣xpqax​bx​p。

2025-01-31 16:01:51 1035

原创 C++计算特定随机操作后序列元素乘积的期望

有一个长度为n的序列a1​a2​an​。初始序列的所有元素均为0。再给定正整数mc和n−m1个正整数b1​b2​bn−m1​。对序列a1​a2​an​进行c次操作,每次操作为:随机选择整数1≤x≤n−m1,其中选到y1≤y≤n−m1的概率为∑i1n−m1​bi​by​​。将ax​ax1​axm−1​增加1。c次操作中对x。

2025-01-31 14:18:10 603

原创 PyDeequ库在AWS EMR启动集群中数据质量检查功能的配置方法和实现代码

实现自定义指标计算逻辑pass.run()以上配置和代码实现了 PyDeequ 在 AWS EMR 的完整数据质量流水线。实际部署时需根据数据规模调整 Spark 资源配置(参数),并建议将质量报告存储至 DynamoDB 或 Amazon CloudWatch 实现可视化监控。

2025-01-31 10:44:17 904

原创 使用堡垒主机保护AWS EMR的SSH连接的配置操作和关键代码

• 确保AWS EMR集群和堡垒主机都在同一个VPC中,并且安全组配置允许它们之间的SSH连接。• 这可以帮助跟踪和审计所有通过堡垒主机进行的SSH连接,确保任何异常行为都能被及时发现和响应。• 使用SSH隧道将客户端连接到堡垒主机,然后通过堡垒主机再连接到AWS EMR集群的主节点。• 修改AWS EMR集群主节点的安全组规则,禁止来自非堡垒主机的直接SSH连接。• 通过SSM,可以在不直接暴露SSH端口的情况下,安全地访问和管理EMR集群。• 定期更新堡垒主机和AWS EMR集群的安全补丁和配置。

2025-01-31 10:00:41 387

原创 Snowflake企业权限管理

我有一个组织,组织里一些部门,部门里由多人组成,组织的数据存储在Snowflake数据仓库里,我希望让不同的部门的成员有不同的数据访问权限,包括表权限,列级权限,行级权限和数据掩码及其组合。通过以下方法,您可以在 Snowflake 中实现灵活的多层级权限控制。建议通过WAREHOUSE权限分离查询负载,同时使用控制登录安全。

2025-01-31 08:05:28 399

原创 在AWS上使用KMS客户端密钥加密S3文件,同时支持PySpark读写和Snowflake导入

现有AWS EMR集群上运行PySpark代码,可以读写S3上的数据文件,Snowflake数据仓库也需要导入S3上的文件到表。现在要用AWS KMS有客户端密钥加密S3上的文件,同时允许PySpark代码,可以读写S3上的数据文件,Snowflake数据仓库导入S3上的文件到表。

2025-01-30 16:36:23 1092

Spark技术参考手册

Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是——Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。

2022-07-08

Databricks技术参考手册

Databricks是Spark 的商业化公司,致力于提供基于 Spark 的云服务,可用于数据集成,数据管道等任务。

2022-06-23

云数据库Snowflake技术参考手册

云数据库Snowflake技术参考手册

2022-02-10

Apache HBase技术参考手册

Apache HBase技术参考手册

2022-01-26

Python3 多线程网络编程与分布式爬虫技术手册.docx

Python3 多线程网络编程与分布式爬虫技术手册

2022-01-14

AWS SAA-C02专家系统文档.docx

AWS 架构设计选型手册

2021-12-14

GCC技术参考手册.docx

GCC(GNU Compiler Collection,GNU编译器套件)是由GNU开发的编程语言译器。GNU编译器套件包括C、C++、 Objective-C、 Fortran、Java、Ada和Go语言前端,也包括了这些语言的库(如libstdc++,libgcj等。)

2021-12-06

机器学习技术参考手册.docx

机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。

2021-12-01

Java虚拟机技术手册.docx

Java虚拟机技术手册

2021-11-29

DataProcessingUtility.zip

SQL Server CLR存储过程实现从SSIS包中查询文本数据,包括表名,视图名和字段名等。

2021-10-22

MFC技术参考手册.docx

微软基础类库(英语:Microsoft Foundation Classes,简称MFC)是微软公司提供的一个类库(class libraries),以C++类的形式封装了Windows API,并且包含一个应用程序框架,以减少应用程序开发人员的工作量。其中包含大量Windows句柄封装类和很多Windows的内建控件和组件的封装类。

2021-10-15

Redis技术参考手册.docx

Redis是一个key-value存储系统。和Memcached类似,它支持存储的value类型相对更多,包括string(字符串)、list(链表)、set(集合)、zset(sorted set --有序集合)和hash(哈希类型)。

2021-09-14

Linux Shell使用手册.docx

Shell 是一个用 C 语言编写的程序,它是用户使用 Linux 的桥梁。Shell 既是一种命令语言,又是一种程序设计语言。Shell 是指一种应用程序,这个应用程序提供了一个界面,用户通过这个界面访问操作系统内核的服务。

2021-09-08

Docker使用手册.docx

Docker 是一个开源的应用容器引擎,让开发者可以打包他们的应用以及依赖包到一个可移植的镜像中,然后发布到任何流行的 Linux或Windows 机器上,也可以实现虚拟化。容器是完全使用沙箱机制,相互之间不会有任何接口。

2021-09-02

Scala 开发教程.docx

Scala 开发教程

2021-08-31

Spark性能优化.docx

Spark性能优化的一些方法。

2021-08-31

企业大数据基础平台搭建和实用开发代码.docx

企业大数据基础平台搭建和实用开发代码

2021-08-29

SQL Server数据库技术手册.docx

SQL Server 是Microsoft 公司推出的关系型数据库管理系统。具有使用方便可伸缩性好与相关软件集成程度高等优点,可跨越从运行Microsoft Windows 98 的膝上型电脑到运行Microsoft Windows 2012 的大型多处理器的服务器等多种平台使用。 Microsoft SQL Server 是一个全面的数据库平台,使用集成的商业智能 (BI)工具提供了企业级的数据管理。Microsoft SQL Server 数据库引擎为关系型数据和结构化数据提供了更安全可靠的存储功能,使您可以构建和管理用于业务的高可用和高性能的数据应用程序。

2021-08-20

Oracle数据库参考手册.docx

Oracle Database,又名Oracle RDBMS,或简称Oracle。是甲骨文公司的一款关系数据库管理系统。它是在数据库领域一直处于领先地位的产品。可以说Oracle数据库系统是目前世界上流行的关系数据库管理系统,系统可移植性好、使用方便、功能强,适用于各类大、中、小微机环境。它是一种高效率的、可靠性好的、适应高吞吐量的数据库方案。

2021-08-19

Microsoft Azure Function Apps 操作大全.docx

Microsoft Azure Function Apps 原理与概述,开发部署流程。

2021-08-09

Pandas技术参考手册.docx

Pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具,还可以连接数据库完成数据处理的流程。

2021-08-09

MySQL技术参考手册.docx

MySQL是一种开放源代码的关系型数据库管理系统(RDBMS),使用最常用的数据库管理语言--结构化查询语言(SQL)进行数据库管理,本文档有MySQL数据库使用方法和代码示例,以及开发维护方法。

2021-08-06

Flink技术参考手册.docx

Apache Flink是由Apache软件基金会开发的开源流处理框架,其核心是用Java和Scala编写的分布式流数据流引擎。Flink以数据并行和流水线方式执行任意流数据程序,Flink的流水线运行时系统可以执行批处理和流处理程序。此外,Flink的运行时本身也支持迭代算法的执行。

2021-07-23

Kafka技术参考手册.docx

Kafka是由Apache软件基金会开发的一个开源流处理平台,由Scala和Java编写。Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者在网站中的所有动作流数据。

2021-07-20

Zookeeper 技术参考手册.docx

ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现,是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组服务等。

2021-07-20

Apache Hadoop技术参考手册.docx

关于Hadoop中YARN、MapReduce和HDFS等组件原理详细介绍,环境搭建和Hadoop 3.0新特性和编程方法。

2021-07-05

Apache Storm技术参考手册.docx

Apache Storm是一个分布式实时大数据处理系统。Storm设计用于在容错和水平可扩展方法中处理大量数据。

2021-06-23

HBase技术参考手册.docx

HBase是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”。

2021-06-22

MySQL、Teradata和PySpark代码互转表和数据转换代码.docx

MySQL、Teradata和PySpark代码互转表,方便在不同的关系数据库和大数据仓库之间转换代码逻辑,另有数据转换操作的PySpark和Hive代码。

2021-05-22

PySpark数据处理技术大全

PySpark 是 Spark 的 Python API,提供了类似于 Spark Core、Spark SQL、Spark Streaming、MLlib 和 GraphX 等组件的接口。这些组件支持分布式计算、实时计算、流式计算、机器学习和图计算等功能‌。PySpark 特别适合处理大规模数据集,并且能够与其他 Python 库如 NumPy 和 Pandas 集成,使得数据处理和分析更加灵活和高效‌。

2025-01-08

R语言的程序技术参考手册

R是用于统计分析、绘图的语言和操作环境。R是属于GNU系统的一个自由、免费、源代码开放的软件,它是一个用于统计计算和统计制图的优秀工具。

2024-12-05

Tableau报表开发手册

‌Tableau‌是一款强大的数据可视化和商业智能(BI)工具,旨在帮助用户快速分析、可视化并分享数据。它通过直观的拖放界面,允许用户无需编写代码即可创建动态仪表板和报告,适用于从小型企业到大型企业的各类组织‌。

2024-11-29

Salesforce对象和语言参考手册

Salesforce标准和自定义对象,以及SOQL和SOSL语言的相关技术文档。

2024-05-25

Salesforce SOQL和SOSL参考手册

SOQL(Salesforce Object Query Language,Salesforce对象查询语言) SOSL(Salesforce Object Search Language,Salesforce对象搜索语言)

2024-05-25

Saleforce标准对象参考手册

Saleforce标准对象参考手册

2024-05-25

PyTorch技术参考手册

PyTorch是一个开源的Python机器学习库,基于Torch,用于自然语言处理等应用程序。它既可以看作加入了GPU支持的numpy,同时也可以看成一个拥有自动求导功能的强大深度神经网络。除了Facebook外,PyTorch还被Twitter、CMU和Salesforce等机构采用。

2023-08-01

Node.js技术参考手册

Node.js是一个基于Chrome V8引擎的JavaScript运行环境,用于在服务端上运行JavaScript。它使用了一个事件驱动、非阻塞式I/O模型,使得JavaScript可以与PHP、Python、Perl、Ruby等服务端语言平起平坐的脚本语言。Node.js对一些特殊用例进行优化,提供替代的API,使得V8在非浏览器环境下运行得更好,V8引擎执行Javascript的速度非常快,性能非常好,基于Chrome JavaScript运行时建立的平台, 用于方便地搭建响应速度快、易于扩展的网络应用。

2023-07-13

Apache Airflow技术参考手册

Apache Airflow是一个Airbnb 的 Workflow 开源项目,用于开发、调度和监控面向批处理的工作流。Airflow的可扩展Python框架使您能够构建与几乎任何技术连接的工作流程。Web界面有助于管理工作流的状态。Airflow可通过多种方式进行部署,从笔记本电脑上的单个进程到分布式设置,以支持最大的工作流程。

2022-11-22

Databricks技术参考手册

Databricks是Spark 的商业化公司,致力于提供基于 Spark 的云服务,可用于数据集成,数据管道等任务。

2022-06-23

云数据库Snowflake技术参考手册

云数据库Snowflake技术参考手册

2022-02-10

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除