scrapy爬虫入门

最新推荐文章于 2024-06-25 14:35:47 发布

fixupyourmind

最新推荐文章于 2024-06-25 14:35:47 发布

阅读量132

点赞数

本文链接：https://blog.csdn.net/fixupyourmind/article/details/113531896

版权

scrapy爬虫入门

1.安装scrapy
- 1.1 安装
- 1.2 安装(国内豆瓣）
2.配置
3.获取网页数据
- 3.1 xpath
4.数据分析

1.安装scrapy

1.1 安装

pip install scrapy

1.2 安装(国内豆瓣）

pip install -i https://pypi.douban.com/simple scrapy

2.配置

2.1 创建项目

在终端输入

scrapy startproject 项目名
cd 项目名
scrapy genspider 爬虫文件名 爬虫域
cd spiders
scrapy crawl 爬虫文件名

2.2 目录结构

在这里插入图片描述

2.2 前期准备

在settings.py中

ROBOTSTXT_OBEY = False
DOWNLOAD_DELAY = 3(伪人）
COOKIES_ENABLED = False
USER_AGENT = 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'(防止反爬，设置代理)

在items.py中设置爬取内容

3.获取网页数据

3.1 xpath

在爬虫文件中根据网页结构写明获取数据的xpath
可以用google的xpath helper插件帮助

在这里插入图片描述

4.数据分析

关注博主即可阅读全文

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

fixupyourmind

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
scrapy爬虫入门

scrapy爬虫入门1.安装scrapy1.1 安装1.2 安装(国内豆瓣）2.配置2.1 创建项目2.2 目录结构2.2 前期准备3.获取网页数据3.1 xpath4.数据分析1.安装scrapy1.1 安装pip install scrapy1.2 安装(国内豆瓣）pip install -i https://pypi.douban.com/simple scrapy2.配置2.1 创建项目在终端输入scrapy startproject 项目名cd 项目名scrapy gen
复制链接

扫一扫