抽取HTML后的内容,一般都会存储为JSON或者CSV格式。《Python爬虫开发与项目实战》一书中以小说阅读网为例,抽取出小说的标题、章节、名称和对应链接,那么为了保险起见,还是老老实实照着来吧 ——
在抽取之前,作者在书中特意强调了一点,http://seputu.com/是一个静态网站,它所有的标题章节名称都不是由JavaScript动态加载的,虽然我不明白作者为什么要特意强调这一点,但是既然他强调了,作为学习者,我也还是把这个前提提出来,至于为什么,等我以后学会了爬虫应该就知道为什么了,反正现在不管