利用scrapy爬取需要登录的网站的数据（包含验证码的处理）--以爬取豆瓣网数据为例

最新推荐文章于 2024-03-27 13:29:35 发布

心中藏着一个猛兽

最新推荐文章于 2024-03-27 13:29:35 发布

阅读量2.2k

点赞数

本文链接：https://blog.csdn.net/qq_38585359/article/details/81216509

版权

利用scrapy爬取需要登录的网站的数据（包含验证码的处理）–以爬取豆瓣网数据为例

1、在cmd命令行中输入 scrapy startproject douban，创建scrapy爬虫项目
2、在cmd命令行中调整到douban项目文件夹下输入 scrapy genspider -t basic db douban.com（最后一个是网站域名）创建名为db的爬虫（如果是创建自动爬虫要输入-t crawl ）
3、在items.py中创建属性title和note，这是我们接下来要爬取的网站的数据，即标题和日志如图所示
4、在db.py中进行爬虫方法的部署，代码和注释如下图：
这里写图片描述

5、在命令行中输入：scrapy crawl db即可爬取数据了
这是我的第一个博客，希望有相似兴趣的可以多和我交流一起学习啊！
- Markdown和扩展Markdown简洁的语法
- 代码块高亮
- 图片链接和图片上传
- LaTex数学公式
- UML序列图和流程图
- 离线写博客
- 导入导出Markdown文件
- 丰富的快捷键

快捷键

加粗 Ctrl + B
斜体 Ctrl + I
引用 Ctrl + Q
插入链接 Ctrl + L
插入代码 Ctrl + K
插入图片 Ctrl + G
提升标题 Ctrl + H
有序列表 Ctrl + O
无序列表 Ctrl + U
横线 Ctrl + R
撤销 Ctrl + Z
重做 Ctrl + Y

Markdown及扩展

Markdown 是一种轻量级标记语言，它允许人们使用易读易写的纯文本格式编写文档，然后转换成格式丰富的HTML页面。 —— [ 维基百科 ]

使用简单的符号标识不同的标题，将某些文字标记为粗体或者斜体，创建一个链接等，详细语法参考帮助？。

本编辑器支持 Markdown Extra , 　扩展了很多好用的功能。具体请参考Github.

表格

Markdown　Extra　表格语法：

项目	价格
Computer	$1600
Phone	$12
Pipe	$1

可以使用冒号来定义对齐方式：

项目	价格	数量
Computer	1600 元	5
Phone	12 元	12
Pipe	1 元	234

定义列表

Markdown　Extra　定义列表语法：项目１项目２

定义 A

定义 B

项目３

定义 C

定义 D

定义D内容

代码块

代码块语法遵循标准markdown代码，例如：

@requires_authorization
def somefunc(param1='', param2=0):
    '''A docstring'''
    if param1 > param2: # interesting
        print 'Greater'
    return (param2 - param1 + 1) or None
class SomeClass:
    pass
>>> message = '''interpreter
... prompt'''