Neo4j 导入CSV数据

六月雨滴

已于 2023-02-22 17:23:57 修改

阅读量2.2k

点赞数

分类专栏： Neo4j 文章标签： Neo4j

于 2023-02-11 20:41:55 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_36620997/article/details/128988831

版权

Neo4j 专栏收录该内容

9 篇文章 1 订阅

订阅专栏

Neo4j 导入CSV数据
- 要求
  - 必须有一个或多个 CSV 文件来表示将在图中创建的节点和关系。
  - 必须有一个已启动的现有 Neo4j DBMS。
- Neo4j 中存储为属性的数据类型
  - String：字符串
  - Long (integer values)：整数值
  - Double (decimal values)：双精度（十进制值）
  - Boolean：布尔值
  - Date/Datetime：时间
  - Point (spatial)：点空间
  - StringArray (comma-separated list of strings)：逗号分隔的字符串列表
  - LongArray (comma-separated list of integer values)：逗号分隔的整数值列表
  - DoubleArray (comma-separated list of decimal values)：逗号分隔的十进制值列表
- CSV 数据导入 Neo4j 的方法
  - 使用 Neo4j 数据导入器。
  - 编写 Cypher 代码来执行导入。
    - LOAD CSV
- 数据导入 Neo4j 的步骤
  - 了解源 CSV 文件中的数据
    - CSV 的文件结构
      - CSV 文件是否有标题信息，描述字段的名称。
      - 每行中的字段的分隔符是什么。
    - CSV 文件示例
      - Cypher 使用的默认值，逗号 (,) 是字段终止符，如果源 CSV 文件使用不同的字段终止符，则必须FIELDTERMINATOR在 CypherLOAD CSV子句中指定。
    - 数据
      - 数据规范化
        唯一的 ID，能够拥有与关系表相对应的 CSV 文件，其中使用 ID 来标识关系。
        
        通常对应于单个 RDBMS 表
      - 非规范化数据
        数据由对应于同一实体的多行表示，将作为节点加载。
        
        特点
        CSV 文件中存在重复数据。
        
        非规范化数据通常代表 RDBMS 中多个表的数据。
        
        表示将作为节点加载的实体的 ID 必须是唯一的。
    - ID 必须是唯一
      - 从 CSV 文件加载数据时，很大程度上依赖文件中指定的 ID。
      - Neo4j 的最佳实践是使用 ID 作为每个节点的唯一属性值。
  - 检查并清理（如有必要）源数据文件的数据
    - 在开始使用源 CSV 数据之前，您必须了解每行如何使用定界符、引号和特殊字符。
    - 如果标头与表示字段的数据不对应，则无法加载数据。
    - 还必须知道您是否可以假设使用默认分隔符“,”，否则，您将需要在使用 Cypher 导入数据时使用FIELDTERMINATOR关键字 along 。LOAD CSV
    - 应该拥有 CSV 文件的本地副本，以便您可以检查其中的数据。
    - 在使用 Neo4j 数据导入器时，将需要 CSV 文件的本地副本。
    - 导入步骤
      - 1、获取或下载 CSV
        如果 CSV 文件是一个 URL，可以简单地在 Web 浏览器中下载它并将其保存在本地。
      - 2、确定分隔符
        查看文件的内容（至少是开头的行）以确定分隔符。
      - 3、确定标头是否匹配字段
        使用 CSV 文件，您可以在电子表格中打开它以更好地理解数据。
        
        重点提示
        默认情况下，每行中的所有这些字段都将作为字符串类型读入。
        
        另请注意，对于此 CSV 文件，国家或语言等多值字段的值由“|”分隔特点。
        
        在电子表格中，检查数据可能更容易一些。
      - 4、确定所有数据是否可读
        Cypher 代码，它将读取包含标头并指定为 URL 的 CSV 文件中的所有数据
      - 5、数据是否干净？
        LOAD CSV WITH HEADERS FROM 'https://data.neo4j.com/importing/ratings.csv' AS row RETURN count(row)
        
        引号使用正确吗？
        
        如果元素没有值，是否会使用空字符串？
        
        是否使用 UTF-8 前缀（例如 \uc）？
        
        某些字段是否有尾随空格？
        
        这些字段是否包含二进制零？
        
        理解列表是如何形成的（默认是使用冒号（:）作为分隔符。
        
        有没有明显的错别字？
  - 创建或理解将在导入过程中实施的图形数据模型
- Neo4j 数据模型
- 要用于导入的数据
- 检查数据以确保它是干净的
- 使用 Neo4j 数据导入器
  - 概述
    - Neo4j 数据导入器（Neo4j Data Importer）是一个图形应用程序，允许将 CSV 文件从本地系统导入到图形中。
    - 使用此图形应用程序，检查 CSV 文件标头，并将它们映射到 Neo4j 图形中的节点和关系。
    - 连接到正在运行的 Neo4j DBMS 以执行导入。
    - Data Importer 的好处是无需了解 Cypher 即可加载数据。无需使用 Cypher 执行导入。
    - 导入到图形中的数据可以解释为字符串、整数、浮点数、日期时间或布尔数据。
  - 用于启动最新版本 Neo4j Data Importer 的URL
    - 用于连接到远程 DBMS：https://data-importer.neo4j.io/ ?acceptTerms=true
    - 用于连接到远程 DBMS：https://data-importer.graphapp.io/?acceptTerms =true
    - 用于连接到本地 DBMS：http://data-importer.graphapp.io/?acceptTerms= true
  - 要求
    - 必须使用 CSV 文件进行导入。
    - CSV 文件必须驻留在本地系统上，以便可以将它们加载到图形应用程序中。
    - CSV 数据必须是干净的（在之前的课程中学到了这一点）。
    - 要创建的所有节点的 ID 必须是唯一的。
    - CSV 文件必须有标题。
    - 必须启动 DBMS。
  - 步骤
    - 1、将 CSV 文件放在本地系统上，并确保它们有标题并且是干净的。
    - 2、打开 Neo4j 数据导入器
      - 使用URL 从任何 Web 浏览器打开 Data Importer 应用程序： https: //data-importer.neo4j.io/versions/0.7.0/ ?acceptTerms=true
    - 3、将本地系统上的 CSV 文件加载到图形应用程序中
    - 4、检查 CSV 文件中使用的 CSV 标头名称
      - 检查第一行确定
        用于创建节点的文件。
        
        用于创建关系的文件。
        
        如何使用 ID 来唯一标识数据。
    - 5、添加节点
      - a、通过单击“添加节点”图标在 UI 中添加节点。
      - b、在“映射详细信息”窗格中为节点指定标签。
      - c、选择要在“映射详细信息”窗格中使用的 CSV 文件。
    - 6、定义节点的映射详细信息
      - a、指定节点的属性（从我们选择所有字段的文件中选择添加）。
      - b、如果您希望属性使用不同的名称或类型，请编辑该属性。
      - c、指定节点的唯一 ID 属性。映射属性后，它们将在左侧面板中标记为绿色
    - 7、创建节点之间的关系
      - a、通过将节点的边缘拖动到自身或另一个节点来在 UI 中添加关系。
      - b、在“映射详细信息”窗格中指定关系的类型。
      - c、选择要在“映射详细信息”窗格中使用的 CSV 文件。
    - 8、定义关系的映射详细信息
      - a、在 Mapping Details 窗格中，指定要使用的 from 和 to 唯一属性 ID。
      - b、如果适用，为文件中的关系添加属性（可选）。
      - c、修改属性的名称或类型（如果您的数据模型需要）。
      - d、确认左侧面板中的 CSV 已全部设置为可以导入。
    - 9、执行导入
      - 导入数据。
      - 查看导入结果。
    - 10、在 Neo4j 浏览器中查看导入的数据
    - 数据导入后查看结果
      - 必须了解的数据导入器最重要的行为是属性值被写为字符串、长整型（整数值）、双精度（小数值）、日期时间或布尔值。
      - Data Importer 根据您为每个节点指定的唯一 ID 在所有节点上创建唯一性约束。
  - 其他功能
    - 映射导入或导出到 JSON 文件或 ZIP 文件。
- 重构导入的数据
  - 查看存储在图中的属性类型
    - 查看节点的属性名称和类型
      - CALL apoc.meta.nodeTypeProperties() YIELD nodeType, propertyName, propertyTypes
    - 查看关系的属性名称和类型
      - CALL apoc.meta.relTypeProperties() YIELD relType, propertyName, propertyTypes
  - 将多值属性转换为列表属性。
    - 转换字符串属性
      - MATCH (p:Person) SET p.born = CASE p.born WHEN "" THEN null ELSE date(p.born) END WITH p SET p.died = CASE p.died WHEN "" THEN null ELSE date(p.died) END
      - 查看节点的属性名称和类型
        CALL apoc.meta.nodeTypeProperties() YIELD nodeType, propertyName, propertyTypes
    - 转换多值属性
      - 多值属性是可以包含一个或多个值的属性。
      - 属性的多值由 “|” 字符被指定为分隔符
      - 将多值字段转换为列表，用两个 Cypher 内置函数
        MATCH (m:Movie) SET m.countries = split(coalesce(m.countries,""), "|"),m.languages = split(coalesce(m.languages,""), "|"), m.genres = split(coalesce(m.genres,""), "|")
        
        coalesce() 如果 m.countries 中的条目为空，则返回空字符串。 split()标识多值字段中的每个元素，其中“|” 字符是分隔符并创建每个元素的列表。
        
        转换为 StringArray 类型
  - 向图表添加标签。
    - 添加标签
      - 将Actor标签添加到具有ACTED_IN关系的所有节点
      - MATCH (p:Person)-[:ACTED_IN]->() WITH DISTINCT p SET p:Actor
  - 从属性值创建节点。
    - 查看图中约束
      - SHOW CONSTRAINTS
    - 创建节点之前向图中添加唯一性约束
      - 最佳做法是为图中给定类型的节点设置唯一 ID。
      - 当您在图中创建节点时，它可以防止重复节点。
      - 它加快了MERGE性能。
    - 为Genre节点的名称属性创建此唯一性约束
      - CREATE CONSTRAINT Genre_name IF NOT EXISTS FOR (x:Genre) REQUIRE x.name IS UNIQUE
    - 从Movie节点的genres属性创建Genre节点
      - MATCH (m:Movie) UNWIND m.genres AS genre WITH m, genre MERGE (g:Genre {name:genre}) MERGE (m)-[:IN_GENRE]->(g)
      - UNWIND子句将节点的流派列表中的元素扩展为行
      - MERGE，它仅在节点尚不存在时才创建该节点。
      - 从图中删除genres属性
        MATCH (m:Movie) SET m.genres = null
      - 查看架构
        CALL db.schema.visualization
- 使用 Cypher 导入大型数据集
  - 导入的内存要求
    - Data Importer 是一个通用应用程序，它将图表中的所有属性创建为字符串、整数、小数、日期时间或布尔值，您可能需要在导入后对图表进行后处理或重构。数据导入器可用于包含少于 100 万行的中小型数据集。
    - 使用 Cypher 语句导入时，可以控制用于导入的内存量。在 Cypher 中，默认情况下，代码的执行是单个事务。为了处理大型 CSV 导入，需要将 Cypher 的执行分解为多个事务。
    - 使用：USING PERIODIC COMMIT，使用此代码结构导入大型数据集
      - USING PERIODIC COMMIT LOAD CSV WITH HEADERSFROM 'url-for-CSV-file'AS row
      - 此类导入的默认事务大小为 500 行。从 CSV 文件中读取 500 行后，数据将提交到图形并继续导入。能够将非常大的 CSV 文件加载到图形中，而不会耗尽内存。
      - 在 Neo4j 浏览器中，您必须在这个 Cypher 前加上:auto，即:auto USING PERIODIC COMMIT LOAD CSV…这告诉 Neo4j 使用事务的自动检测。
        减少导入所需的内存量。
  - 优势
    - 可以在导入期间执行类型转换和一些“重构”。也就是说，可以自定义属性类型的管理方式，因此无需在加载后进行任何后处理。
    - 在导入数据之前，必须检查并可能清理数据。将使用的大型 CSV 数据文件已被清理。
    - 首先确定每个文件中的行数
      - LOAD CSV WITH HEADERS FROM '文件' AS ROW RETURN COUNT(ROW)
  - 改用Cypher导入步骤
    - 删除图中的所有节点和关系。
      - match (u:实体) detach delete u; match (n) detach delete n
    - 确保图中存在所有约束。
    - 导入电影和流派数据。
    - 导入人员数据。
    - 导入 ACTED_IN 关系。
    - 导入 DIRECTED 关系。
    - 导入用户数据。

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

六月雨滴 CSDN认证博客专家 CSDN认证企业博客

码龄8年

157: 原创

1万+: 周排名

1万+: 总排名

23万+: 访问

: 等级

2845: 积分

102: 粉丝

184: 获赞

27: 评论

327: 收藏

私信

关注

热门文章

分类专栏

EBS 80篇
ArangoDB 6篇
Neo4j 9篇
Oracle Form Builder 2篇
Tomcat 2篇
Java 21篇
Apache 1篇
Eclipse 7篇
SQL 7篇
GIT 1篇
Oracle 21篇

最新评论

用于化学和生物信息学的开源 Java 库：The Chemistry Development Kit (CDK)
weixin_46258076: 您好，请问下，CDK生成的哈希指纹，每一位指纹是否能对应到化合物的子结构
ArangoDB
qq_20090041: 为什么http://127.0.0.1:8529 这个网址打不开，显示拒绝连接呢？
Oracle 之索引，妙不可言（五）——函数索引
六月雨滴: 函数索引相对于普通索引在某些方面的维护成本可能会更高。 1、函数索引通常涉及列值的计算和转换，这会增加索引结构的复杂性。在查询执行过程中，数据库需要对这些计算结果进行比较。因此，函数索引可能会提高索引的查询成本。 2、当表中的相关数据更新时，数据库需要重新计算和更新函数索引。相比普通索引，这增加了更新操作的代价。但在特定场景下，函数索引可以提高查询性能。例如，当对某些列的经过计算或转换后的值进行频繁查询时，由于函数索引已经预先计算了这些值，因此可以减少查询时的计算成本。对于大数据量插入，可能会影响性能如下：插入新数据时，数据库需要更新所有相关的索引，包括普通索引和函数索引。大数据量插入可能导致大量的索引更新，从而降低插入性能。对于函数索引，由于涉及计算或转换，这个过程可能更加耗时。当执行大量插入操作时，数据库系统需要记录事务日志以确保数据一致性和恢复能力。这可能会对插入性能产生负面影响，因为系统需要在磁盘上记录日志。为了提高性能，可以尝试批量插入数据，以减少日志操作的次数。为了优化大数据量插入的性能，可以采取以下策略：批量插入与批量提交、避免过多索引、并行插入、数据预处理。总之，大数据量插入对性能的影响因素较多，需要根据具体应用场景和数据库特点，采取适当的优化策略来提高插入性能。
Oracle 之索引，妙不可言（五）——函数索引
YouJian Shan: 你好。函数索引的维护成本是不是要比普通的索引高呢？大数据量插入的话，性能方面的有着怎样的影响呢？
Missing library: xdoclet-1.2.1.jar.的解决办法
六月雨滴: 确实是 bin 这个文件，感谢

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。