fasttaxt：数据预处理和生成词向量

最新推荐文章于 2022-11-08 10:33:59 发布

进击的程序员XA51

最新推荐文章于 2022-11-08 10:33:59 发布

阅读量1.2k

点赞数

分类专栏：文本处理

本文链接：https://blog.csdn.net/chenyangXA51/article/details/82728583

版权

数据预处理：

1，符号处理：

def go_split(s,min_len):
    # 拼接正则表达式
    symbol = '，；。！、？!'
    symbol = "[" + symbol + "]+"
    # 一次性分割字符串
    result = re.split(symbol, s)
return [x for x in result if len(x)>min_len]

def is_dup(s,min_len):
    result = go_split(s,min_len)
return len(result) !=len(set(result))

def is_neg_symbol(uchar):
    neg_symbol=['!', '0', ';', '?', '、', '。', '，']
return uchar in neg_symbol

2，分词

#encoding=utf-8
#author linxinzhu
import jieba
import sys
reload(sys)
sys.setdefaultencoding('utf8')
f = open('3.txt','r')
outf = open('4.txt','w')
for line in f:


    line = line.decode("utf-8").encode("utf-8

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

进击的程序员XA51

关注关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
fasttaxt：数据预处理和生成词向量

数据预处理：1，符号处理：def go_split(s,min_len): # 拼接正则表达式 symbol = '，；。！、？!' symbol = "[" + symbol + "]+" # 一次性分割字符串 result = re.split(symbol, s)return [x for x in result if len(x)&gt;...
复制链接

扫一扫