python爬取网站数据的小程序_python scrapy抓取网页小程序

最新推荐文章于 2024-01-05 20:51:33 发布

weixin_39892311

最新推荐文章于 2024-01-05 20:51:33 发布

阅读量215

点赞数

文章标签： python爬取网站数据的小程序

1.创建spider

import scrapy

import re

from scrapy.http import Request

from urllib import parse

from ArticleSpider.items import PythonDoc

import datetime

"""

创建class PythonDocSpider并继承scrapy.Spider

"""

class PythonDocSpider(scrapy.Spider):

name = 'pythonDoc'

allowed_domains = ['www.kuqin.com']

start_urls = ['http://www.kuqin.com/abyteofpython_cn/index.html']

"""

获取列表页post_urls

并将每页Request发送scrapy下载器处理

:param response:

:return:

"""

def parse(self, response):

post_urls = response.css("a::attr(href)").extract()

for post_url in post_urls:

yield Request(url = parse.urljoin(response.url,post_url),callback = self.parse_detail)

#从取回的页面中提取所需要的链接并递归调用当前函数，循环执行抓取动作

next_urls = response.css("[align=right]>a::attr(href)").extract()[0]

if next_urls:

yield Request(url = parse.urljoin(response.url,next_urls),callback = self.parse)

"""

解析response对象，并将取到的页面内容保存到对应的item字典对象中

"""

def parse_detail(self, response):

doc_item = PythonDoc()

content = response.text

doc_item['content'] = content.replace("2312","k")

doc_item['file_name'] = response.url

yield doc_item

2.创建spider所用的items方法(处理抓取回来的数据)

#item中调用的Compose函数，用于处理item中的值，这里处理了字符串替换

def Replace(content):

new_content = content.replace('2312','k')

return new_content

#抓取python学习静态页面

class PythonDoc(scrapy.Item):

content = scrapy.Field()

file_name = scrapy.Field(

output_processor = Compose(Replace)

)

3.创建pipelines保存抓取的页面内容：

class StorePythonDoc(object):

def process_item(self,item,spider):

content = item['content']

# file_name = item['file_name']

file_name = item['file_name']

name = file_name.rsplit('/',1)

self.save_to_file(name[1],content)

def save_to_file(self,file_name,content):

fn = open(file_name,mode="w",encoding='GBK')

fn.write(content)

fn.close()

4.在settings文件中配置该spider参数

ITEM_PIPELINES = {

#将写好的pipeline添加到配置文件中，后边数字表示执行顺序，越小越先被执行

'ArticleSpider.pipelines.StorePythonDoc':100

}

#该选项表示是否基于机器人协议，设置为false，否则会被某些网站禁止爬取

ROBOTSTXT_OBEY = False

#控制下载速度，设置延时时间

DOWNLOAD_DELAY = 5

5.在main函数中启动spider开始爬取页面

from scrapy.cmdline import execute

import os

import sys

sys.path.append(os.path.dirname(os.path.abspath(__file__)))

execute(["scrapy","crawl","pythonDoc"])

weixin_39892311

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python爬取网站数据的小程序_python scrapy抓取网页小程序

1.创建spiderimport scrapyimport refrom scrapy.http import Requestfrom urllib import parsefrom ArticleSpider.items import PythonDocimport datetime"""创建class PythonDocSpider并继承scrapy.Spider"""class Python...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。