最近在做数据挖掘大作业,老师要求100W新闻,自己爬了一大部分,但也还不够,就想到用语料库,
搜狗语料库来源:http://www.sogou.com/labs/resource/cs.php
打开是
<doc>
<url>...</url>
<docno>....</docno>
<contentitle>...</contenttitle>
<content>...</content>
</doc>
这样的形式的已经切割好的一堆文件,这里我只写了运动的获取内容,只需读取后正则匹配写入就ok,如下:
# -*- coding: UTF-8 -*- import codecs import sys import re import csv import os import codecs #cate