mywang88
2018-12-14
简介
由于项目需要,计划抓取 dblp 网站关键词搜索结果的文章列表。
目标站点:dblp: computer science bibliography 以及文章所属期刊网站
维基词条:DBLP - Wkikpedia
1 流程设计
- 从需求方获取“关键词列表”。
- 在 DBLP 主页,使用关键词列表中的每个关键词,发起搜索。
- 获取搜索结果页面中,每个条目(文章)的详细信息,包括文章链接。
- 提取信息,存入数据库文章表。
- 获取文章表中的文章链接,访问文章页面。
- 从文章页面中解析出更多信息,例如 Abstract 等,更新文章信息中的对应字段。
- 由于不同文章往往属于不同站点,需要给每个对应站点编写单独的解析方法。
2 主要工具
-
Python 解释器,版本 3.7.0
-
最好有个 Python 的编辑器(例如 notepad++)或者 IDE(例如 PyCharm)
-
Scrapy 爬虫框架,版本 1.5.1
-
Google Chrome 浏览器,版本 71.0.3578.98(正式版本) (64 位)
-
MySQL 数据库。
-
其它 Python 工具包,例如 pymysql,json 等。
-
Scrapy 和其它 Python 工具包都可以使用 pip 命令安装。
3 项目实施
3.1 创建爬虫项目
- 提前安装好 scrapy 框架。
- 在命令行模式下进入一个准备好的文件夹。
- 创建一个 scrapy 项目。
scrapy startproject project_name
- 进入项目文件夹,使用 scrapy genspider 指令创建一个 spider 爬虫。
cd project_name
scrapy genspider d