在搜狗实验室下载的新闻语料库中存储的一条新闻的数据格式是
<doc>
<url></url>
<docno></docno>
<contenttitle></contenttitle>
<content></content>
</doc>
多条新闻数据就是多个doc的重复
在搜狗实验室下载的新闻语料库中存储的一条新闻的数据格式是
<doc>
<url></url>
<docno></docno>
<contenttitle></contenttitle>
<content></content>
</doc>
多条新闻数据就是多个doc的重复