python自动生成采集规则_快速制作规则及获取规则提取器AP

最新推荐文章于 2021-02-11 00:36:23 发布

weixin_40005373

最新推荐文章于 2021-02-11 00:36:23 发布

阅读量398

点赞数

文章标签： python自动生成采集规则

本文链接：https://blog.csdn.net/weixin_40005373/article/details/111452877

版权

一. 引言

之前文章所用的例子中的规则都是固定的，如何自定义规则再结合提取器提取我们想要的网页内容呢？对于程序员来说，理想的目标是掌握一个通用的爬虫框架，每增加一个新目标网站就要跟着改代码，这显然不是好工作模式。这就是本篇文章的主要内容了，本文使用一个案例说明怎样将新定义的采集规则融入到爬虫框架中。也就是用可视化的集搜客GooSeeker爬虫软件针对亚马逊图书商品页做一个采集规则，并结合规则提取器抓取网页内容。

二. 安装集搜客GooSeeker爬虫软件

1. 前期准备

进入集搜客官网产品页面，下载对应版本。我的电脑上已经安装了Firefox 38，所以这里只需下载爬虫。

2. 安装爬虫

打开Firefox –> 点击菜单工具 –> 附加组件 –> 点击右上角附加组件的工具 –> 选择从文件安装附加组件 -> 选中下载好的爬虫xpi文件 –> 立即安装

下一步

三. 开始制作抓取规则

1. 运行规则定义软件

点击浏览器菜单：工具-> MS谋数台弹出MS谋数台窗口。

2. 做规则

在网址栏输入我们要采集的网站链接，然后回车。当页面加载完成后，在工作台页面依次操作：命名主题名 -> 创建规则 -> 新建整理箱 -> 在浏览器菜单选择抓取内容，命名后保存。

四. 申请规则提取器API KEY

打开集搜客Gooseeke官网，注册登陆后进入会员中心 -> API -> 申请API

五. 结合提取器API敲一个爬虫程序

1.引入Gooseeker规则提取器模块gooseeker.py

(下载地址: gooseeker/core at master · FullerHua/gooseeker · GitHub), 选择一个存放目录，这里为E:\demo\gooseeker.py

2. 与gooseeker.py同级创建一个.py后缀文件

如这里为E:\Demo\third.py，再以记事本打开，敲入代码:

注释：代码中的31d24931e043e2d5364d03b8ff9cc77e 就是API KEY，用你申请的代替；amazon_book_pc 是规则的主题名，也用你的主题名代替

# -*- coding: utf-8 -*-

# 使用GsExtractor类的示例程序

# 以webdriver驱动Firefox采集亚马逊商品列表

# xslt保存在xslt_bbs.xml中

# 采集结果保存在third文件夹中

import os

import time

from lxml import etree

from selenium import webdriver

from gooseeker import GsExtractor

# 引用提取器

bbsExtra = GsExtractor()

bbsExtra.setXsltFromAPI("31d24931e043e2d5364d03b8ff9cc77e", "amazon_book_pc") # 设置xslt抓取规则

# 创建存储结果的目录

current_path = os.getcwd()

res_path = current_path + "/third-result"

if os.path.exists(res_path):

pass

else:

os.mkdir(res_path)

# 驱动火狐

driver = webdriver.Firefox()

url = "https://www.amazon.cn/s/ref=sr_pg_1?rh=n%3A658390051%2Cn%3A!658391051%2Cn%3A658414051%2Cn%3A658810051&page=1&ie=UTF8&qid=1476258544"

driver.get(url)

time.sleep(2)

# 获取总页码

total_page = driver.find_element_by_xpath("//*[@class='pagnDisabled']").text

total_page = int(total_page) + 1

# 用简单循环加载下一页链接(也可以定位到下一页按钮，循环点击)

for page in range(1,total_page):

# 获取网页内容

content = driver.page_source.encode('utf-8')

# 获取docment

doc = etree.HTML(content)

# 调用extract方法提取所需内容

result = bbsExtra.extract(doc)

# 保存结果

file_path = res_path + "/page-" + str(page) + ".xml"

open(file_path,"wb").write(result)

print('第' + str(page) + '页采集完毕，文件:' + file_path)

# 加载下一页

if page < total_page - 1:

url = "https://www.amazon.cn/s/ref=sr_pg_" + str(page + 1) + "?rh=n%3A658390051%2Cn%3A!658391051%2Cn%3A658414051%2Cn%3A658810051&page=" + str(page + 1) + "&ie=UTF8&qid=1476258544"

driver.get(url)

time.sleep(2)

print("~~~采集完成~~~")

driver.quit()

3. 执行third.py

打开命令提示窗口，进入third.py文件所在目录，输入命令 :python third.py 回车

4. 查看结果文件

进入third.py文件所在目录，找到名称为result-2的文件夹然后打开

六. 总结

制作规则时，由于定位选择的是偏好id，而采集网址的第二页对应页面元素的id属性有变化，所以第二页内容提取出现了问题，然后对照了一下网页元素发现class是一样的，果断将定位改为了偏好class，这下提取就正常了。下一篇《Scrapy框架的安装和使用》简单介绍Scrapy的使用方法。

End

作者：华天清

来源：知乎

本文均已和作者授权，如转载请与作者联系。

weixin_40005373

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python自动生成采集规则_快速制作规则及获取规则提取器AP

一. 引言之前文章所用的例子中的规则都是固定的，如何自定义规则再结合提取器提取我们想要的网页内容呢？对于程序员来说，理想的目标是掌握一个通用的爬虫框架，每增加一个新目标网站就要跟着改代码，这显然不是好工作模式。这就是本篇文章的主要内容了，本文使用一个案例说明怎样将新定义的采集规则融入到爬虫框架中。也就是用可视化的集搜客GooSeeker爬虫软件针对亚马逊图书商品页做一个采集规则，并结合规则提取器抓...
复制链接

扫一扫