CSDN全站综合热榜的爬虫实战

最新推荐文章于 2024-10-06 18:19:52 发布

安逸逸逸逸

最新推荐文章于 2024-10-06 18:19:52 发布

阅读量1.2k

点赞数 24

文章标签：爬虫

本文链接：https://blog.csdn.net/2301_76728517/article/details/142318063

版权

一、项目背景与介绍

CSDN作为中国最大的IT社区和服务平台，提供了丰富的技术内容，包括博客、论坛、问答等，其全站综合热榜更是汇聚了众多用户关注的热点话题和技术文章。本项目旨在通过编写一个爬虫程序，自动化地抓取CSDN全站综合热榜的数据，以便进行进一步的数据分析和研究。

二、爬取思路与步骤

2.1整体思路

环境准备：配置好Python环境和Selenium库，准备好与浏览器版本相匹配的ChromeDriver。
浏览器自动化：使用Selenium的WebDriver来控制Chrome浏览器，模拟用户浏览网页的行为。
动态内容加载：通过模拟滚动页面来触发动态内容的加载，确保所有需要爬取的数据都已加载到页面中。
显式等待：使用WebDriverWait来实现显式等待，确保需要爬取的元素已经完全加载到页面上。
数据定位与提取：利用XPath或其他选择器来定位页面中的元素，并提取所需的数据。
数据存储：将提取的数据按照一定的格式（如CSV）存储起来，方便后续的分析和使用。
异常处理：在数据提取过程中加入异常处理机制，确保单个数据点的问题不会影响整个爬取过程。
资源管理：在爬取结束后，正确关闭浏览器和相关资源，避免内存泄漏。
数据完整性：确保爬取的数据完整性和准确性，对提取的数据进行必要的清洗和验证。
合规性考虑：在爬取数据时，遵守目标网站的robots.txt规则，尊重版权和隐私政策，确保爬虫行为合法合规。
效率与优化：在保证数据质量的前提下，优化爬虫的效率，比如通过合理设置延时、使用多线程或多进程等技术。
用户代理模拟：通过设置合适的用户代理（User-Agent），模拟真实用户的行为，减少被网站识别为爬虫的风险。
错误处理：在爬虫中加入错误处理机制，对于加载超时、元素未找到等常见问题进行处理。
结果验证：在爬取完成后，验证数据的正确性和完整性，确保爬取结果符合预期。

2.2部分重要代码讲解

1. 模拟滚动页面以加载数据

scroll_height = 0
while True:
    # 执行JavaScript滚动页面
    driver.execute_script(f"window.scrollTo(0, {scroll_height});")
    scroll_height += 1000  # 每次滚动1000像素
    time.sleep(3)  # 等待页面加载新内容

    # 检查是否已经到达页面底部
    new_height = driver.execute_script("return document.body.scrollHeight;")
    if scroll_height >= new_height:
        break

解释：

scroll_height 用于记录当前滚动的位置。
driver.execute_script 方法执行JavaScript代码，模拟浏览器的滚动行为。
time.sleep(3) 暂停3秒，给页面加载留出时间。
循环检查当前滚动高度是否已经达到页面的总高度，如果是，则停止滚动。

2. 显式等待元素加载

wait = WebDriverWait(driver, 10)
list1_container = wait.until(EC.presence_of_element_located((By.XPATH, xpath_container)))
list1_elements = list1_container.find_elements(By.XPATH, './/div[@class="floor-rank-item"]')

解释：

WebDriverWait 配合 expected_conditions 的 presence_of_element_located 方法，等待直到指定的元素出现在页面上。
xpath_container 是一个XPath表达式，用于定位包含排行榜项的容器元素。
find_elements 方法获取所有匹配的元素，这里它获取所有排行榜项。

3. 数据提取与CSV文件写入

with open(csv_file_path, mode='w', newline='', encoding='utf-8') as file:
    writer = csv.writer(file)
    writer.writerow(['排名', '封面图片地址', '标题', '作者头像地址', '作者昵称', '浏览人数', '评论人数', '收藏人数', '热度'])

    for item in list1_elements:
        try:
            ranking = item.find_element(By.XPATH, './/div[1]/div/div[1]/span').text
            img_url = item.find_element(By.XPATH, './/div[2]/div[1]/a').value_of_css_property('background-image').replace('url("', '').replace('")', '')
            title = item.find_element(By.XPATH, './/div[2]/div[2]/div[1]/a').text
            author_img = item.find_element(By.XPATH, './/div[3]/div[2]/a[1]/img').get_attribute('src')
            author_name = item.find_element(By.XPATH, './/div[3]/div[2]/a[2]').text
            look_num = item.find_element(By.XPATH, './/div[2]/div[2]/div[2]/span[1]').text
            comment_num = item.find_element(By.XPATH, './/div[2]/div[2]/div[2]/span[3]').text
            favorite_num = item.find_element(By.XPATH, './/div[2]/div[2]/div[2]/span[5]').text
            level = item.find_element(By.XPATH, './/div[3]/div[1]/span[1]').text
            writer.writerow([ranking, img_url, title, author_img, author_name, look_num, comment_num, favorite_num, level])
        except Exception as e:
            print(f"Error processing item: {e}")

解释：

使用 with open 语句打开CSV文件，准备写入数据。
csv.writer 用于创建一个写入CSV文件的对象。
writerow 方法写入一行数据，首先是标题行，然后是每个排行榜项的数据。
find_element 方法用于定位排行榜项中的各个数据点，如排名、图片URL、标题等。
value_of_css_property 方法用于获取元素的CSS属性值，这里用于获取图片的URL。
try-except 结构用于捕获并处理在数据提取过程中可能发生的异常。

三、总结

这段Python代码使用Selenium库来爬取CSDN全站综合热榜的数据，并将结果保存到CSV文件中。整个脚本展示了一个完整的爬虫流程，从页面访问到数据提取，再到数据存储，每一步都通过代码实现自动化。这个爬虫实战项目不仅可以用来获取CSDN的热榜数据，还可以作为学习Selenium和爬虫技术的一个实例。在实际应用中，需要注意遵守目标网站的爬虫政策，合理设置访问频率，以免对网站造成不必要的负担或违反相关法律法规。