迅速上手python网络爬虫

最新推荐文章于 2024-07-26 22:40:18 发布

ansna_yxy

最新推荐文章于 2024-07-26 22:40:18 发布

阅读量536

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ansna_yxy/article/details/90180480

版权

前言：

本文涉及的术语解释如下：

Python：一种解释型编程语言

网络爬虫：简单理解为是一种处理数据的框架

一、运行环境

您需要准备一台电脑，以Windows操作系统为例，上面装有如下软件：

1、谷歌chrome浏览器（安装方式省略）

2、python 3（安装软件的过程省略）

3、cmd命令提示符（自带）

二、数据清洗——整理网站的数据

1、使用chrome浏览器浏览数据

2、使用开发者工具定位到数据模块（您所需的内容）

3、使用csv文件保存源数据

三、数据爬取——获得网站的数据

1、编辑语句

爬取某租房网站的信息，以xxx作为项目名。需要抓取的字段有：标题、地址、价格、出租类型、评分，居住人数。在item.py文件中定义爬虫的字段信息。

关键源码如下：

from scrapy.item import Item,Field

class xxxItem(Item)

title = Field()

address = Field()

price = Field()

lease_type = Field()

suggestion = Field()

bed = Field()

pipeline.py文件用于爬虫数据的处理，打开文件，确认关键信息无误

class xxxPipeline(object):

def process_item(self,item,spider):

return item

需要将pipeline文件修改，以便获取在自己编写的.py文件中事先定义好的字段信息（抓取后的字段信息会自动保存在桌面，运行程序后，打开桌面上名为xxx.txt文件，就可以查看到所有抓取到的字段信息）

settings.py文件用于对爬虫项目进行一些基础设置，如请求头的填写，设置pipeline文件等。关键源码如下：

BOT_NAME = 'xxx'

SPIDER_MODULES = ['xxx.spiders']

NEWSPIDER_MODULE = 'xxx.spiders'

需要将settings文件修改，添加内容以便爬取指定的信息（下图第6行代码）

最后编写自己的.py文件，命名为myspider。关键源码如下

2、运行程序，查看效果

名为“xxx”的爬虫项目编写好后，可以开始运行Scrapy爬虫程序。

在命令提示符（cmd）输入：scrapy crawl xxx

在运行程序后，就可以在桌面找到xxx.txt的文本文件，可以查看已经抓取到的文件信息。

或者可以在爬虫项目文件夹内，新建一个__main__.py的文件来运行爬虫程序，并且过滤空白信息。关键源码如下

from scrapy import cmdline

cmdline.execute("scrapy crawl xxx".split())

四、书籍推荐

《零基础学Python网络爬虫》

扫描下方二维码，微信打赏并留言您的邮箱，可获得作者亲手整理的python知识笔记（PDF电子版，含Python源码示例），仅需9.9元！

读书笔记目录如下图：包含Python知识点、Python项目案例、Python面试题库。

Python源码文件如下图

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
迅速上手python网络爬虫

前言：本文涉及的术语解释如下：Python：一种解释型编程语言网络爬虫：简单理解为是一种处理数据的框架一、运行环境您需要准备一台电脑，以Windows操作系统为例，上面装有如下软件：1、谷歌chrome浏览器（安装方式省略）2、python 3（安装软件的过程省略）3、cmd命令提示符（自带）二、数据清洗——整理网站的数据1、使用ch...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。