- 博客(1)
- 收藏
- 关注
原创 Wiki中文语料处理-python
昨天弄了一天的Wiki中文语料处理,发现有一点很重要,数据的完整性校验。 首先是最开始的压缩文件,下载完后要检验是否完整的方法就是解压是否能够成功,成功说明数据至少是完整的。接着是提取出来的txt文档,首先在python环境下要注意文档的编码格式,UTF-8和GBK差别还是有的。接着对于在python中打开文件的时候代码 output = open(outp, 'w',encoding="u
2017-10-31 09:09:56 1512
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人