python wiki中文语料分词

最新推荐文章于 2022-02-18 18:24:14 发布

残月飞雪

最新推荐文章于 2022-02-18 18:24:14 发布

阅读量1.7k

点赞数 1

分类专栏：自然语言处理文章标签：分词 jieba wiki wiki中文语料分词

本文链接：https://blog.csdn.net/majinlei121/article/details/83210778

版权

该博客介绍了如何利用jieba分词库对从wiki下载的中文语料进行处理，将txt文件转换为分词后的wiki_seg.txt。由于语料文件体积较大（1.8G），整个过程耗时较长。

摘要由CSDN通过智能技术生成

上篇将wiki中文语料已经下载下来（wiki中文文本语料下载并处理 ubuntu + python2.7），并且转为了txt格式，本篇对txt文件进行分词，分词后才能使用word2vector训练词向量
分词python程序为（使用jieba分词）

# -*- coding: utf-8 -*-
#!/usr/bin/env python
import sys
reload(sys)
sys.setdefaultencoding('utf8')

import pandas as pd
import numpy as np
import lightgbm as lgb
from sklearn.model_selection import StratifiedKFold
from sklearn.metrics import f1_score
from gensim.models import word2vec
import logging, jieba
import os, io

stop_words_file = "stop_words.txt" 
stop_words = list() 
with io.open(stop_words_file, 'r', encoding="gb18030") as stop_words_file_object: 
  contents = stop_words_file_object.readlines() 
  for line in contents: 
    line = line.strip() 
    stop_words.append(line)

data_file = 'wiki.txt'
i = 1
with io.open(data_file, 'r'