派森python教程_从零开始的Python爬虫速成指南

最新推荐文章于 2024-03-27 14:54:02 发布

weixin_39536630

最新推荐文章于 2024-03-27 14:54:02 发布

阅读量3.6k

点赞数

文章标签：派森python教程

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39536630/article/details/111785356

版权

序

本文主要内容：以最短的时间写一个最简单的爬虫，可以抓取论坛的帖子标题和帖子内容。

本文受众：没写过爬虫的萌新。

入门

0.准备工作

需要准备的东西： Python、scrapy、一个IDE或者随便什么文本编辑工具。

1.技术部已经研究决定了，你来写爬虫。

随便建一个工作目录，然后用命令行建立一个工程，工程名为miao，可以替换为你喜欢的名字。

scrapy startproject miao

随后你会得到如下的一个由scrapy创建的目录结构

在spiders文件夹中创建一个python文件，比如miao.py，来作为爬虫的脚本。

内容如下：

import scrapy

class NgaSpider(scrapy.Spider):

name = "NgaSpider"

host = "http://bbs.ngacn.cc/"

# start_urls是我们准备爬的初始页

start_urls = [

"http://bbs.ngacn.cc/thread.php?fid=406",

]

# 这个是解析函数，如果不特别指明的话，scrapy抓回来的页面会由这个函数进行解析。

# 对页面的处理和分析工作都在此进行，这个示例里我们只是简单地把页面内容打印出来。

def parse(self, response):

print response.body

号：923414804

群里有志同道合的小伙伴，互帮互助，

群里有不错的视频学习教程和PDF！

2.跑一个试试？

如果用命令行的话就这样：

cd miao

scrapy crawl NgaSpider

你可以看到爬虫君已经把你坛星际区第一页打印出来了，当然由于没有任何处理，所以混杂着html标签和js脚本都一并打印出来了。

解析

接下来我们要把刚刚抓下来的页面进行分析，从这坨html和js堆里把这一页的帖子标题提炼出来。

其实解析页面是个体力活，方法多的是，这里只介绍xpath。

0.为什么不试试神奇的xpath呢

看一下刚才抓下来的那坨东西，或者用chrome浏览器手动打开那个页面然后按F12可以看到页面结构。

每个标题其实都是由这么一个html标签包裹着的。举个例子：

[合作模式] 合作模式修改设想

可以看到href就是这个帖子的地址(当然前面要拼上论坛地址)，而这个标签包裹的内容就是帖子的标题了。

于是我们用xpath的绝对定位方法，把class='topic'的部分摘出来。

1.看看xpath的效果

在最上面加上引用：

from scrapy import Selector

把parse函数改成：

def parse(self, response):

selector = Selector(response)

# 在此，xpath会将所有class=topic的标签提取出来，当然这是个list

# 这个list里的每一个

最低0.47元/天解锁文章

weixin_39536630

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
派森python教程_从零开始的Python爬虫速成指南

序本文主要内容：以最短的时间写一个最简单的爬虫，可以抓取论坛的帖子标题和帖子内容。本文受众：没写过爬虫的萌新。入门0.准备工作需要准备的东西： Python、scrapy、一个IDE或者随便什么文本编辑工具。1.技术部已经研究决定了，你来写爬虫。随便建一个工作目录，然后用命令行建立一个工程，工程名为miao，可以替换为你喜欢的名字。scrapy startproject miao随后你会得到如下的...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。