这学期开学之时我们有一个任务,写一个数据可视化项目。我对此很感兴趣因此从开学到现在一直在做,直到这个夜晚终于把这个项目写完了,顿时感到心情愉快也特别想把这个项目展示给大家,也希望能对大家有所帮助。在做这个项目的时候我从网上搜了很多关于文本分析的内容和很多关于三国演义文本分析的文章,但感觉起点还是太高,不是很适合我们这种刚入门的小白,另外还有觉得一些并没有很好的反映三国演义的人物关系,因此想写几篇解剖一下我的第一个项目,分享给所有刚入门的小白,让我们一起努力!第一篇分析大纲,欢迎大家持续关注。
一、思路
要做一个项目之前除了确定好主题之外,很重要的一个东西就是思路。我们该怎么样围绕主题开展我们的项目,里面会有哪些问题,会牵扯到哪些技术,哪些是我们会的,哪些是我们还需要学习的。做一个项目之前一定先想好一个思路,再去开展否则很可能陷入困境,做到一半发现做不下去了。下面开始进入正文。
1.利用xpath从网站爬取到下载链接
2.利用下载链接获取到三国演义txt文本,存到本地
3.将全本按章节分割开(利用正则表达式匹配第几回;利用open打开文件并且进行分割)