爬虫进阶-RE

最新推荐文章于 2024-05-09 20:44:02 发布

JesonNb

最新推荐文章于 2024-05-09 20:44:02 发布

阅读量1.1k

点赞数 24

文章标签：爬虫

本文链接：https://blog.csdn.net/JesonNb/article/details/138154248

版权

第1关：单网页爬取

任务描述

本关任务：编写一个爬虫，爬取 www.jd.com 网的 title。

编程要求

请仔细阅读右侧代码，结合相关知识，在 Begin-End 区域内进行代码补充，编写一个爬虫，爬取 www.jd.com 网的 title ，具体要求如下：

获取 www.jd.com 的页面 html 代码并保存在 ./step1/京东.html；

使用正则提取 title；
将 title 的内容保存为 csv 文件，位置为 ./step1/csv_file.csv。

代码：

方法一：RE

import urllib.request
import csv
import re
#打开京东，读取并爬到内存中，解码, 并赋值给data
#将data保存到本地
# ********** Begin ********** #
data = urllib.request.urlopen("https://www.jd.com").read().decode("utf-8", "ignore")
with open("./step1/京东.html", 'a') as f:
    f.write(data)
# ********** End ********** #
#使用正则提取title
#保存数据到csv文件中
# ********** Begin ********** #
pattern = "<title>(.*?)</title>"
title = re.compile(pattern, re.S).findall(data)
with open("./step1/csv_file.csv", 'a') as f:
    f_csv = csv.writer(f)
    f_csv.writerow(title)
# ********** End ********** #

方法二：bs4

import csv
import requests
from bs4 import BeautifulSoup

url = "https://www.jd.com"
r = requests.get(url)
r.encoding = 'utf-8'

with open("E:\pythonProject1\大数据采集\RE\京东.html", 'w', encoding='utf-8') as f:
    f.write(r.text)

soup = BeautifulSoup(r.text, "html.parser")
title = soup.find('title').text

# 将标题文本按字符分割，并写入CSV文件
with open("E:\pythonProject1\大数据采集\RE\csv_file.cs44", 'w', encoding='utf-8', newline='') as f:
    f_csv = csv.writer(f)
    f_csv.writerow(list(title))