迅速上手python网络爬虫

 

前言:

本文涉及的术语解释如下:

Python:一种解释型编程语言

网络爬虫:简单理解为是一种处理数据的框架

 

一、运行环境

您需要准备一台电脑,以Windows操作系统为例,上面装有如下软件:

1、谷歌chrome浏览器(安装方式省略)

2、python 3(安装软件的过程省略)

3、cmd命令提示符(自带)

 

 

二、数据清洗——整理网站的数据

1、使用chrome浏览器浏览数据

2、使用开发者工具定位到数据模块(您所需的内容)

3、使用csv文件保存源数据

 

三、数据爬取——获得网站的数据

1、编辑语句

爬取某租房网站的信息,以xxx作为项目名。需要抓取的字段有:标题、地址、价格、出租类型、评分,居住人数。在item.py文件中定义爬虫的字段信息。

关键源码如下:

from scrapy.item import Item,Field

 

class xxxItem(Item)

title = Field()

address = Field()

price = Field()

lease_type = Field()

suggestion = Field()

bed = Field()

 

pipeline.py文件用于爬虫数据的处理,打开文件,确认关键信息无误

class xxxPipeline(object):

def process_item(self,item,spider):

return item

需要将pipeline文件修改,以便获取在自己编写的.py文件中事先定义好的字段信息(抓取后的字段信息会自动保存在桌面,运行程序后,打开桌面上名为xxx.txt文件,就可以查看到所有抓取到的字段信息)

settings.py文件用于对爬虫项目进行一些基础设置,如请求头的填写,设置pipeline文件等。关键源码如下:

BOT_NAME = 'xxx'

 

SPIDER_MODULES = ['xxx.spiders']

NEWSPIDER_MODULE = 'xxx.spiders'

需要将settings文件修改,添加内容以便爬取指定的信息(下图第6行代码)

 

最后编写自己的.py文件,命名为myspider。关键源码如下

 

2、运行程序,查看效果

名为“xxx”的爬虫项目编写好后,可以开始运行Scrapy爬虫程序。

在命令提示符(cmd)输入:scrapy crawl xxx

在运行程序后,就可以在桌面找到xxx.txt的文本文件,可以查看已经抓取到的文件信息。

或者可以在爬虫项目文件夹内,新建一个__main__.py的文件来运行爬虫程序,并且过滤空白信息。关键源码如下

from scrapy import cmdline

cmdline.execute("scrapy crawl xxx".split())

 

四、书籍推荐

《零基础学Python网络爬虫》

扫描下方二维码,微信打赏并留言您的邮箱,可获得作者亲手整理的python知识笔记(PDF电子版,含Python源码示例),仅需9.9元!

读书笔记目录如下图:包含Python知识点、Python项目案例、Python面试题库。

 

Python源码文件如下图

 

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值