使用Scrapy、PhantomJS和Selenium爬取知网文献摘要。以下例子用于爬取“医药卫生科技”类文献摘要。
1.使用Scrapy创建项目
scrapy startproject cnki
2.进入cnki文件夹创建HtmlFilter.py用于除去标签
具体实现请参考:https://blog.csdn.net/kc_a_co/article/details/81052101
3.爬取摘要
摘要内容在
但不能直接打开,需要先进入http://kns.cnki.net/kns/brief/result.aspx?dbprefix=SCDB
点击搜索后才能正常进入上个页面
所以选择使用PhantomJS+Selenium先进行搜索操作,并返回摘要界面内容
(1)建立spiders同级的MidWare文件夹,并新建Selenium.py
实现参考:
https://blog.csdn.net/qq_30242609/article/details/70859891
https://blog.csdn.net/u012745777/article/details/50506822
from selenium import webdriver