- 博客(1)
- 资源 (4)
- 收藏
- 关注
原创 自然语言处理入门一:zhwiki数据处理
##参考文献: 自然语言处理1 自然语言处理2 中文wiki数据下载地址约1.6G 20181027 英文wiki数据下载地址约15G 20181027 博主环境 win10 X64 Anaconda3.7 python3.5 wiki数据下载完成后的文件名为:enwiki-latest-pages-articles.xml.bz2 或者:zhwiki-latest-pages-ar...
2018-10-27 17:44:47 1310
process_wiki.py 修改后
网上目前有很多process_wiki,但本人下载后,运行总是遇到UnicodeEncodeError: 'gbk' codec can't encode… 所以就对相应代码进行了改进,忽略此类错误,在海量数据里面,丢掉几行数据没太大影响。
2018-10-27
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人