python爬虫教程：详解4种类型的爬虫技术

2401_84011114

于 2024-04-21 14:08:06 发布

阅读量935

点赞数 26

分类专栏：程序员文章标签： python 爬虫开发语言

本文链接：https://blog.csdn.net/2401_84011114/article/details/138032736

版权

程序员专栏收录该内容

200 篇文章 0 订阅

订阅专栏

1.商品详情页

2.商品名称

3.商品价格

4.评价人数

5.商品商家

‘’’

from selenium import webdriver # 引入selenium中的webdriver

from selenium.webdriver.common.keys import Keys

import time

def get_good(driver):

try:

通过JS控制滚轮滑动获取所有商品信息

js_code = ‘’’

window.scrollTo(0,5000);

‘’’

driver.execute_script(js_code) # 执行js代码

等待数据加载

time.sleep(2)

查找所有商品div

good_div = driver.find_element_by_id(‘J_goodsList’)

good_list = driver.find_elements_by_class_name(‘gl-item’)

n = 1

for good in good_list:

根据属性选择器查找

商品链接

good_url = good.find_element_by_css_selector(

‘.p-img a’).get_attribute(‘href’)

商品名称

good_name = good.find_element_by_css_selector(

‘.p-name em’).text.replace(“\n”, “–”)

商品价格

good_price = good.find_element_by_class_name(

‘p-price’).text.replace(“\n”, “:”)

评价人数

good_commit = good.find_element_by_class_name(

‘p-commit’).text.replace(“\n”, " ")

good_content = f’‘’

商品链接: {good_url}

商品名称: {good_name}

商品价格: {good_price}

评价人数: {good_commit}

‘’’

print(good_content)

with open(‘jd.txt’, ‘a’, encoding=‘utf-8’) as f:

f.write(good_content)

next_tag = driver.find_element_by_class_name(‘pn-next’)

next_tag.click()

time.sleep(2)

递归调用函数

get_good(driver)

time.sleep(10)

finally:

driver.close()

if name == ‘main’:

good_name = input(‘请输入爬取商品信息:’).strip()

driver = webdriver.Chrome()

driver.implicitly_wait(10)

往京东主页发送请求

driver.get(‘https://www.jd.com/’)

输入商品名称，并回车搜索

input_tag = driver.find_element_by_id(‘key’)

input_tag.send_keys(good_name)

input_tag.send_keys(Keys.ENTER)

time.sleep(2)

get_good(driver)

03 增量爬虫技术

某些网站会定时在原有网页数据的基础上更新一批数据。例如某电影网站会实时更新一批最近热门的电影，小说网站会根据作者创作的进度实时更新最新的章节数据等。在遇到类似的场景时，我们便可以采用增量式爬虫。

增量爬虫技术(incremental Web crawler)就是通过爬虫程序监测某网站数据更新的情况，以便可以爬取到该网站更新后的新数据。

关于如何进行增量式的爬取工作，以下给出三种检测重复数据的思路：

在发送请求之前判断这个URL是否曾爬取过;
在解析内容后判断这部分内容是否曾爬取过;
写入存储介质时判断内容是否已存在于介质中。

第一种思路适合不断有新页面出现的网站，比如小说的新章节、每天的实时新闻等;
第二种思路则适合页面内容会定时更新的网站;
第三种思路则相当于最后一道防线。这样做可以最大限度地达到去重的目的。

不难发现，实现增量爬取的核心是去重。目前存在两种去重方法。

第一，对爬取过程中产生的URL进行存储，存储在Redis的set中。当下次进行数据爬取时，首先在存储URL的set中对即将发起的请求所对应的URL进行判断，如果存在则不进行请求，否则才进行请求。
第二，对爬取到的网页内容进行唯一标识的制定(数据指纹)，然后将该唯一标识存储至Redis的set中。当下次爬取到网页数据的时候，在进行持久化存储之前，可以先判断该数据的唯一标识在Redis的set中是否存在，从而决定是否进行持久化存储。

关于增量爬虫的使用方法示例如下所示。

【例3】爬取4567tv网站中所有的电影详情数据

‘’’

遇到问题没人解答？小编创建了一个Python学习交流QQ群：531509025

寻找有志同道合的小伙伴，互帮互助,群里还有不错的视频学习教程和PDF电子书！

‘’’

import scrapy

from scrapy.linkextractors import LinkExtractor

from scrapy.spiders import CrawlSpider, Rule

from redis import Redis

from incrementPro.items import IncrementproItem

class MovieSpider(CrawlSpider):