文本处理
进击的程序员XA51
从今天开始,为成为一个合格的软件工程师而奋斗
展开
-
fasttaxt:数据预处理和生成词向量
数据预处理:1,符号处理:def go_split(s,min_len): # 拼接正则表达式 symbol = ',;。!、?!' symbol = "[" + symbol + "]+" # 一次性分割字符串 result = re.split(symbol, s)return [x for x in result if len(x)>...原创 2018-09-16 19:39:58 · 1247 阅读 · 0 评论 -
keras 处理文本,分类,数值数据,并添加进网络的步骤和方法
一,读取数据:主要使用pandas 读取,以后考虑使用其他方法(libsvm等)二,获取训练集和测试集:这一步主要是划分数据集,drop()掉训练集里的预测那一列三,处理缺失值:可以使用fillna(value,inplace)来把缺失值补全四:送入网络之前的处理:1;分类信息的处理:主要使用Keras的Tokenizer方法进行处理:1,使用Tokenizer类对...原创 2018-09-21 11:11:01 · 650 阅读 · 0 评论