自然语言处理入门(一)--搜狗新闻语料处理和word2vec词向量的训练

最新推荐文章于 2024-07-27 22:01:28 发布

黄然大悟

最新推荐文章于 2024-07-27 22:01:28 发布

阅读量2.8k

点赞数 5

分类专栏：自然语言处理文章标签：自然语言处理新闻语料预处理 word2vec训练 NLP

本文链接：https://blog.csdn.net/huanghaocs/article/details/90550080

版权

本文介绍了如何对搜狗新闻语料进行预处理，包括XML内容提取、特殊字符过滤、全角半角转换，以及利用jieba进行分词。处理后的语料用于word2vec模型训练，生成的词向量可应用于NLP任务。

摘要由CSDN通过智能技术生成

新闻语料预处理

本文使用的是搜狗新闻语料库，原始语料是类似下图中xml格式，首先需要提取中语料中正真的新闻内容，就是<content>中对应的文本。还需要过滤一些特殊字符，以及半角和全角的转换问题。
新闻语料格式
语料的下载，官方地址：https://www.sogou.com/labs/resource/cs.php ，需要填一些信息。
百度云盘的备份，链接：https://pan.baidu.com/s/1n1IQxsb2Kbi2IHz9Cst7mg 提取码：r1n2

下面看一下详细的处理过程。首先是一个全角转半角的辅助程序，全角和半角转换的详细情况请参考：
Python实现全角与半角相互转换：https://blog.csdn.net/huanghaocs/article/details/90384163

def is_Qnumber(uchar):
    """判断一个unicode是否是全角数字"""
    if uchar >= u'\uff10' and uchar <= u'\uff19':
        return True
    else:
        return False

def is_Qalphabet(uchar):
    """判断一个unicode是否是全角英文字母"""
    if (uchar >= u'\uff21' and uchar <= u'\uff3a') or (uchar >= u'\uff41' and uchar <= u'\uff5a'):
        return True
    else:
        return False

def Q2B(uchar):
    """单个字符 全角转半角"""
    inside_code = ord(uchar)
    if inside_code == 0x3000:
        inside_code = 0x0020
    else:
        inside_code -= 0xfee0