DBLP 搜索爬虫项目

本文介绍了如何使用Python Scrapy框架和相关工具,如pymysql,来抓取DBLP网站的关键词搜索结果,并将其存入MySQL数据库。首先获取关键词列表,然后构造搜索URL并提交请求,解析JSON数据,最后将文章信息存储到数据库。后续工作涉及访问文章页面,提取更多详情并更新数据库。
摘要由CSDN通过智能技术生成

mywang88

2018-12-14

简介

由于项目需要,计划抓取 dblp 网站关键词搜索结果的文章列表。

目标站点:dblp: computer science bibliography 以及文章所属期刊网站

维基词条:DBLP - Wkikpedia

1 流程设计

  • 从需求方获取“关键词列表”。
  • 在 DBLP 主页,使用关键词列表中的每个关键词,发起搜索。
  • 获取搜索结果页面中,每个条目(文章)的详细信息,包括文章链接。
  • 提取信息,存入数据库文章表。
  • 获取文章表中的文章链接,访问文章页面。
  • 从文章页面中解析出更多信息,例如 Abstract 等,更新文章信息中的对应字段。
  • 由于不同文章往往属于不同站点,需要给每个对应站点编写单独的解析方法。

2 主要工具

  • Python 解释器,版本 3.7.0

    官网:https://www.python.org/

  • 最好有个 Python 的编辑器(例如 notepad++)或者 IDE(例如 PyCharm)

  • Scrapy 爬虫框架,版本 1.5.1

    官网:https://scrapy.org/

  • Google Chrome 浏览器,版本 71.0.3578.98(正式版本) (64 位)

  • MySQL 数据库。

  • 其它 Python 工具包,例如 pymysql,json 等。

  • Scrapy 和其它 Python 工具包都可以使用 pip 命令安装。

3 项目实施

3.1 创建爬虫项目

  • 提前安装好 scrapy 框架。
  • 在命令行模式下进入一个准备好的文件夹。
  • 创建一个 scrapy 项目。
scrapy startproject project_name
  • 进入项目文件夹,使用 scrapy genspider 指令创建一个 spider 爬虫。
cd project_name
scrapy genspider d
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值