[AI]cc_net工具安装与运行简介

alwaysrun

于 2023-05-14 17:14:54 发布

阅读量863

点赞数

分类专栏： AI及大数据 Internet 文章标签：人工智能 cc_net ai

本文链接：https://blog.csdn.net/alwaysrun/article/details/130670837

版权

Internet 同时被 2 个专栏收录

19 篇文章 1 订阅

订阅专栏

AI及大数据

12 篇文章 0 订阅

订阅专栏

文章目录

cc_net是一个网络数据抓取与清洗的开源工具包。

安装部署

获取包：git clone https://github.com/facebookresearch/cc_net.git；
进入cc_net目录，执行make install；

kenlm编译问题（进入third_party/kenlm）：
在cmakelist.txt中添加set(CMAKE_CXX_FLAGS "${CAMKE_CXX_FLAGS} -std=c++11 -pthread")

缺少boost库：
apt-get install libboost-all-dev

直接安装

pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple

pip install kenlm

pip install cc-net

依赖包

cc_net运行需要依赖以下包：

KenLM语言模型训练工具，用传统的“统计+平滑”的方法；快速，节省内存，最重要的是，允许在开源许可下使用多核处理器。
- pkuseg是一个汉语分词工具
sentencepiece：训练领域的sentencepiece模型，可以代替预训练模型(BERT,XLNET)中词表的作用。提供四种关于词的切分方法。
beautifulsoup4：也被称为bs4库，用于解析和处理html和xml。
fasttext：一个词向量计算和文本分类工具；能取得和深度网络相媲美的精度，却在训练时间上比深度网络快许多数量级。

运行

使用Common Crawl示例（crawl.json）：

{
    "execution": "slurm",
    "task_parallelism": 3,
    "num_shards": 300,
    "hash_in_mem": 50,
    "dump": "2023-06",
    "pipeline": [
        "dedup",
        "lid",
        "keep_lang",
        "sp",
        "lm",
        "drop",
        "heuristics",
        "split_by_lang"
    ],
    "output_dir": "/data/xugd/cc_data",
    "cache_dir": "/data/xugd/wet_cache",
    "lang_whitelist": [
        "en",
        "zh"
    ]
}