pythonscrapy爬虫_python爬虫框架Scrapy下载(网页数据抓取工具)V1.4.1 简化最新版

最新推荐文章于 2022-07-27 22:08:52 发布

weixin_39572972

最新推荐文章于 2022-07-27 22:08:52 发布

阅读量160

点赞数

文章标签： pythonscrapy爬虫

python爬虫框架Scrapy下载(网页数据抓取工具)是一套基于基于Twisted的异步处理框架。纯python实现的爬虫框架，用户只需要定制开发几个模块就可以轻松的实现一个爬虫，用来抓取网页内容以及各种图片，非常之方便。

使用方法

0.准备工作

需要准备的东西： Python、scrapy、一个IDE或者随便什么文本编辑工具。

1.技术部已经研究决定了，你来写爬虫。

随便建一个工作目录，然后用命令行建立一个工程，工程名为miao，可以替换为你喜欢的名字。

scrapy startproject miao

1

scrapy startproject miao

随后你会得到如下的一个由scrapy创建的目录结构

在spiders文件夹中创建一个python文件，比如miao.py，来作为爬虫的脚本。

内容如下：

import scrapy

class NgaSpider(scrapy.Spider):

name = "NgaSpider"

host = "http://bbs.ngacn.cc/"

# start_urls是我们准备爬的初始页

start_urls = [

]

# 这个是解析函数，如果不特别指明的话，scrapy抓回来的页面会由这个函数进行解析。

# 对页面的处理和分析工作都在此进行，这个示例里我们只是简单地把页面内容打印出来。

def parse(self, response):

print response.body

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

import scrapy

class NgaSpider(scrapy.Spider):

name = "NgaSpider"

host = "http://bbs.ngacn.cc/"

# start_urls是我们准备爬的初始页

start_urls = [

"http://bbs.ngacn.cc/thread.php?fid=406",

]

# 这个是解析函数，如果不特别指明的话，scrapy抓回来的页面会由这个函数进行解析。

# 对页面的处理和分析工作都在此进行，这个示例里我们只是简单地把页面内容打印出来。

def parse(self, response):

print response.body

2.跑一个试试？

如果用命令行的话就这样：

cd miao

scrapy crawl NgaSpider

1

2

cd miao

scrapy crawl NgaSpider

你可以看到爬虫君已经把你坛星际区第一页打印出来了，当然由于没有任何处理，所以混杂着html标签和js脚本都一并打印出来了。

更新内容

Scrapy 1.4 没有带来许多令人惊叹的新功能，但进行了相当多的方便的改进。

Scrapy 现在通过新的 :setting:`FTP_USER` 和 :setting:`FTP_PASSWORD` 设置，支持使用可自定义的用户和密码进行匿名 FTP 会话。

如果使用 Twisted 17.1.0 或更高版本，FTP 现在可以与 Python 3 一起使用。

weixin_39572972

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
pythonscrapy爬虫_python爬虫框架Scrapy下载(网页数据抓取工具)V1.4.1 简化最新版

python爬虫框架Scrapy下载(网页数据抓取工具)是一套基于基于Twisted的异步处理框架。纯python实现的爬虫框架，用户只需要定制开发几个模块就可以轻松的实现一个爬虫，用来抓取网页内容以及各种图片，非常之方便。使用方法0.准备工作需要准备的东西： Python、scrapy、一个IDE或者随便什么文本编辑工具。1.技术部已经研究决定了，你来写爬虫。随便建一个工作目录，然后用命令行建立...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。