wiki中英文语料处理

Wiki官方提供了下载链接:https://dumps.wikimedia.org/zhwiki/latest/

本文处理的中文wiki:zhwiki-latest-pages-articles.xml.bz2

本文处理的英文wiki:enwiki-latest-pages-articles.xml.bz2


1,数据抽取,将*.xml.bz2转为可编辑txt

#process_wiki.py
# -*- coding: utf-8 -*-
from gensim.corpora import WikiCorpus

if __name__ == '__main__':

    inp="enwiki-latest-pages-articles.xml.bz2"
    i = 0
    output_file="wiki_englist_%07d.txt"%i


    output = open(output_file, 'w',encoding="utf-8")
    wiki = WikiCorpus(inp, lemmatize=False, dictionary={})
    for text in wiki.get_texts():
        output.write("".join(text) + "\n")
        i = i + 1
        if (i % 10000 == 0):
            output.close()
            output_file = "wiki_englist_%07d.txt" % i
            output = open(output_file, 'w', encoding="utf-8")
            print("Save "+str(i) + " articles")
    output.close()
print("Finished saved "+str(i) + "articles")


2,繁体转简体

使用opencc工具,https://code.google.com/archive/p/opencc/downloads

https://code.google.com/archive/p/opencc/downloads
-i:输入文件
-o:输出文件
-c:配置文件,zht2zhs.ini为繁体到简体转化


3,字符编码转换

iconv -c -t UTF-8 < input_file > output_file


4,分词处理

https://github.com/fxsjy/jieba

pip install jieba
python -m jieba input_file > cut_file

或者使用FoolNLTK

https://github.com/rockyzhengwu/FoolNLTK

pip install foolnltk

或者jieba_fast

https://github.com/deepcs233/jieba_fast

pip install jieba_fast




基于CBOW的中英文语料分析项目结论可能会有以下几点: 1. CBOW模型在处理中英文语料时表现良好。CBOW模型是一种基于上下文预测目标词的神经网络模型,它通过学习上下文中的词向量来捕捉词语之间的语义关系。在中英文语料分析项目中,CBOW模型可以有效地学习到不同语言中词语的语义信息,从而帮助实现更准确的文本理解和处理。 2. CBOW模型可以用于词义消歧。在中英文语料分析项目中,CBOW模型可以通过学习上下文中的词向量来判断一个词在不同上下文中的不同含义。这对于解决词义消歧问题非常有帮助,可以提高文本理解的准确性。 3. CBOW模型可以用于文本分类和情感分析。在中英文语料分析项目中,CBOW模型可以通过学习文本中的词向量来提取特征,并将其用于文本分类和情感分析任务。通过捕捉词语之间的语义关系,CBOW模型可以帮助实现更准确的文本分类和情感分析结果。 4. CBOW模型对于处理大规模语料库也具有良好的扩展性。CBOW模型可以通过并行计算的方式对大规模语料库进行训练,从而缩短训练时间并提高效率。这对于处理中英文语料分析项目中的大规模数据非常重要。 需要注意的是,以上结论是基于CBOW模型在中英文语料分析项目中的应用经验得出的,具体的结论可能会因实际问题和数据集的不同而有所差异。因此,在实际应用中,还需要根据具体情况进行调整和优化。
评论 7
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值