DBLP 搜索爬虫项目

最新推荐文章于 2024-03-20 20:57:43 发布

mywang88

最新推荐文章于 2024-03-20 20:57:43 发布

阅读量2.1k

点赞数

分类专栏：爬虫文章标签： DBLP Python Scrapy 爬虫关键词

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/mywang88/article/details/85010022

版权

本文介绍了如何使用Python Scrapy框架和相关工具，如pymysql，来抓取DBLP网站的关键词搜索结果，并将其存入MySQL数据库。首先获取关键词列表，然后构造搜索URL并提交请求，解析JSON数据，最后将文章信息存储到数据库。后续工作涉及访问文章页面，提取更多详情并更新数据库。

摘要由CSDN通过智能技术生成

mywang88

2018-12-14

简介

由于项目需要，计划抓取 dblp 网站关键词搜索结果的文章列表。

目标站点：dblp: computer science bibliography 以及文章所属期刊网站

维基词条：DBLP - Wkikpedia

1 流程设计

从需求方获取“关键词列表”。
在 DBLP 主页，使用关键词列表中的每个关键词，发起搜索。
获取搜索结果页面中，每个条目（文章）的详细信息，包括文章链接。
提取信息，存入数据库文章表。
获取文章表中的文章链接，访问文章页面。
从文章页面中解析出更多信息，例如 Abstract 等，更新文章信息中的对应字段。
由于不同文章往往属于不同站点，需要给每个对应站点编写单独的解析方法。

2 主要工具

Python 解释器，版本 3.7.0

官网：https://www.python.org/
最好有个 Python 的编辑器（例如 notepad++）或者 IDE（例如 PyCharm）
Scrapy 爬虫框架，版本 1.5.1

官网：https://scrapy.org/
Google Chrome 浏览器，版本 71.0.3578.98（正式版本）（64 位）
MySQL 数据库。
其它 Python 工具包，例如 pymysql，json 等。
Scrapy 和其它 Python 工具包都可以使用 pip 命令安装。

3 项目实施

3.1 创建爬虫项目

提前安装好 scrapy 框架。
在命令行模式下进入一个准备好的文件夹。
创建一个 scrapy 项目。

scrapy startproject project_name

进入项目文件夹，使用 scrapy genspider 指令创建一个 spider 爬虫。

cd project_name
scrapy genspider d

最低0.47元/天解锁文章

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

mywang88 CSDN认证博客专家 CSDN认证企业博客

码龄7年

25: 原创

10万+: 周排名

103万+: 总排名

12万+: 访问

: 等级

1159: 积分

21: 粉丝

41: 获赞

7: 评论

152: 收藏

私信

关注

分类专栏

足迹 7篇
Markdown练习 2篇
Python学习 12篇
数学题 3篇
Java学习 2篇
爬虫 4篇
翻译 1篇
Git学习 1篇

最新评论

十二平均律的数学描述
weixin_37977459: 朱载堉都没有提
十二平均律的数学描述
mywang88: 如果即使你分了 24 或 36 均分，则在选配音阶（五声、七声）的时候，你选的还是 12 均分中的那几个，其它的两两之间基本都没有特别好的共振关系
十二平均律的数学描述
wvrains: 其实还是有点没搞懂，为什么是12，因为24也可以啊，36也不错啊，也符合要求。刚学不太懂这些，博主见谅。我后面再查一查
十二平均律的数学描述
wvrains: 博主讲的很好！我看完了，感觉第6条没必要说，因为如果年利率用任意值n计算（第六条用12计算），然后存n年，最后总额也会变成2万

大家在看

最新文章

目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。