DeepSeek Coder 的数据过滤过程中,具体使用了哪些规则?

DeepSeek Coder 的数据过滤过程中使用了多种规则,具体包括以下内容:

  1. 规则过滤

    • 过滤掉平均行长度超过100个字符或最大行长度超过1000个字符的文件。
    • 删除字母字符少于25%的文件。
    • 对于HTML文件,仅保留可见文本占HTML代码至少20%且不少于20个字符的文件。
    • 对于包含更多数据的JSON和YAML文件,仅保留字符计数在50到5000个范围内的文件。
    • 对于XSLT编程语言,除了上述规则外,还进一步过滤掉前100个字符中出现字符串 <xsl:stylesheet> 的文件。
  2. 依赖解析与文件去重

    • 解析同一存储库内文件之间的依赖关系,并根据这些依赖关系重新排列文件位置。
    • 使用仓库级的minhash算法进行重复数据删除。
  3. 质量筛选

    • 去除语法错误、可读性差或模块化低的代码。
    • 使用n-gram过滤方法,如果一段代码包含与测试数据中任何10-gram字符串相同的内容,则会被删除。
  4. 其他过滤策略

    • 删除无价值的文件,例如仅包含注释或无实际代码的文件。
    • 排除与项目无关的文件,例如仅保留特定编程语言的文件。

通过这些多层次的过滤规则,DeepSeek Coder 能够高效地筛选出高质量的数据集,从而为模型训练提供可靠的基础数据支持。

  1. 代码行长度限制

### 配置和使用本地部署的 DeepSeek Coder #### 在 IntelliJ IDEA 中安装 DeepSeek Coder 插件 为了在 IntelliJ IDEA 中配置并使用本地部署的 DeepSeek Coder 进行代码生成功能,需先完成插件的安装: 1. 打开 IntelliJ IDEA 并进入设置界面。对于 Windows 和 Linux 用户来说,可以通过 `File > Settings` 访问;而对于 macOS 用户,则应选择 `IntelliJ IDEA > Preferences`[^3]。 2. 寻找左侧导航栏中的 "Plugins" 选项卡,在搜索框内键入 “DeepSeek”,以此查找对应的插件,并按照提示完成安装过程[^1]。 #### 设置本地部署环境 确保已正确搭建好 DeepSeek Coder 的本地运行环境之后,继续如下操作以实现与 IDE 的连接: - 如果采用的是 Docker 方式启动服务端程序,请确认容器正常工作且监听指定端口; - 对于直接编译源码的方式,保证应用已经成功构建并且可以稳定提供 API 接口调用。 #### 配置 DeepSeek Coder 参数 回到 IntelliJ IDEA 内部,针对刚刚添加好的 DeepSeek Coder 组件做进一步参数调整: ```json { "serverUrl": "http://localhost:8080", // 替换成实际的服务地址 "apiKey": "" // 如有必要的话填写API密钥 } ``` 上述 JSON 片段展示了部分可能需要修改的关键配置项,具体取决于所使用的版本和个人需求差异而定。 #### 使用 DeepSeek Coder 生成功能 当一切准备就绪后,便可以在日常编码过程中充分利用该功能模块带来的便利之处了。比如想要自动生成某个类的方法存根时,只需选中目标位置然后触发相应命令即可让系统自动补全相关内容。 ```python class ExampleClass: pass # 假设这里会由 DeepSeek 自动生成一些常用方法... ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

百态老人

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值