linux访问网页元素,如何用Beautiful Soup爬取一个网址

最新推荐文章于 2023-04-15 14:02:49 发布

weixin_39758032

最新推荐文章于 2023-04-15 14:02:49 发布

阅读量227

点赞数

文章标签： linux访问网页元素

182250803_1_2020020907132935

什么是Beautiful Soup？

Beautiful Soup是一个Python库，它将HTML或XML文档解析为树结构，以便于从中查找和提取数据。它通常用于从网站上抓取数据。

Beautiful Soup具有简单的Pythonic界面和自动编码转换功能，可以轻松处理网站数据。

网页是结构化文档，Beaut是一个Python库，它将HTML或XML文档解析为树结构，以便于查找和提取数据。在本指南中，您将编写一个Python脚本，可以通过Craigslist获得摩托车价格。脚本将被设置为使用cron作业定期运行，生成的数据将导出到Excel电子表格中进行趋势分析。通过替换不同的url并相应地调整脚本，您可以轻松地将这些步骤适应于其他网站或搜索查询。

安装Beautiful Soup

安装Python在安装过程中，系统会多次提示您，查看条款和条件，您在每个提示框选择“是”即可。

重新启动shell会话以使PATH的更改生效。

检查你的Python版本：

python --version

安装美丽的汤和依赖更新您的系统：

sudo apt update && sudo apt upgrade使用pip安装最新版本的Beautiful Soup：

pip install beautifulsoup4安装依赖项：

pip install tinydb urllib3 xlsxwriter lxml

构建Web Scraper

必需的模块

bs4中的BeautifulSoup类将处理web页面的解析。datetime模块用于处理日期。Tinydb为NoSQL数据库提供了一个API, urllib3模块用于发出http请求。最后，使用xlsxwriterAPI创建excel电子表格。

craigslist.py在文本编辑器中打开并添加必要的import语句：

craigslist.py

5from bs4 import BeautifulSoup

import datetime

from tinydb import TinyDB, Query

import urllib3

import xlsxwriter

添加全局变量

在import语句之后，添加全局变量和配置选项：

craigslist.py

4urllib3.disable_warnings(urllib3.exceptions.InsecureRequestWarning)

url = 'https://elpaso.craigslist.org/search/mcy?sort=date'

total_added = 0

url存储要抓取的网页的URL，并total_added用于跟踪添加到数据库的结果总数。该urllib3.disable_warnings()函数忽略任何SSL证书警告。

检索网页

该make_soup函数向目标url发出GET请求，并将生成的HTML转换为BeautifulSoup对象：

craigslist.py

4def make_soup(url):

http = urllib3.PoolManager()

r = http.request("GET", url)

return BeautifulSoup(r.data,'lxml')

该urllib3库具有出色的异常处理能力; 如果make_soup抛出任何错误，请查看urllib3文档以获取详细信息。

Beautiful Soup有不同的解析器，对网页的结构或多或少有些严格。对于本指南中的示例脚本，lxml解析器已经足够了，但是根据您的需要，您可能需要检查官方文件中描述的其他选项。

处理Soup对象

类的对象BeautifulSoup以树为结构组织。要访问您感兴趣的数据，您必须熟悉原始HTML文档中数据的组织方式。在浏览器中转到初始网站，右键单击并选择查看页面源(或检查，具体取决于您的浏览器)，以查看您要抓取的数据的结构：

$12791

favorite this post

Nov 1

Ducati Diavel | Dark

$12791

pic

map

hide this posting

restore

restore this posting

通过仅选择li html标签来选择网页代码段，并通过仅选择具有结果类类别的li标签来进一步缩小选项范围。该结果变量包含所有符合该条件的网页片段：results = soup.find_all("li", class_="result-row")尝试根据目标片段的结构创建记录。如果结构不匹配，那么Python将抛出异常，这将导致它跳过此记录和片段：craigslist.py

rec = {

'pid': result['data-pid'],

'date': result.p.time['datetime'],

'cost': clean_money(result.a.span.string.strip()),

'webpage': result.a['href'],

'pic': clean_pic(result.a['data-ids']),

'descr': result.p.a.string.strip(),

'createdt': datetime.datetime.now().isoformat()

}使用Beautiful Soup的数组表示法来访问HTML元素的属性：'pid': result'data-pid'其他数据属性可以在HTML结构中更深地嵌套，并且可以使用点和数组表示法的组合来访问。例如，发布结果的日期存储在元素中，该元素是元素datetime的数据属性，该time元素是作为其子元素的p标记的子元素result。要访问此值，请使用以下格式：'date': result.p.time'datetime'有时所需的信息是标签内容(在开始和结束标签之间)。要访问标记内容，BeautifulSoup提供了以下string方法：

$12791

可以访问：

'cost': clean\_money(result.a.span.string.strip())

这里的值通过使用Python strip()函数以及clean_money删除美元符号的自定义函数进一步处理。Craigslist上出售的大多数商品都包含该商品的图片。自定义函数clean_pic用于将第一张图片的URL分配给pic：'pic': clean_pic(result.a'data-ids')元数据可以添加到记录中。例如，您可以添加一个字段来跟踪创建特定记录的时间：'createdt': datetime.datetime.now().isoformat()在插入记录之前，使用Query对象检查数据库中是否已存在记录。这可以避免创建重复记录。craigslist.py

Result = Query()

s1 = db.search(Result.pid == rec["pid"])

if not s1:

total_added += 1

print ("Adding ... ", total_added)

db.insert(rec)

错误处理

处理两种类型的错误很重要。这些不是脚本中的错误，而是片段结构中的错误导致Beautiful Soup的API抛出错误。

一个AttributeError当点符号没有找到兄弟标签当前HTML标记将被抛出。例如，如果特定代码段没有锚标记，那么代价键将抛出错误，因为它会横向并因此需要锚标记。

另一个错误是KeyError。如果缺少必需的HTML标记属性，则会抛出它。例如，如果代码段中没有data-pid属性，则pid键将引发错误。

如果在解析结果时发生这些错误中的任何一个，则将跳过该结果以确保未将错误的片段插入到数据库中：

craigslist.py

2except (AttributeError, KeyError) as ex:

pass

清洁功能(Cleaning Functions)

这是两个简短的自定义函数，用于清理代码段数据。该clean_money函数从输入中删除任何美元符号：

craigslist.py

2def clean_money(amt):

return int(amt.replace("$",""))

该clean_pic函数生成一个URL，用于访问每个搜索结果中的第一个图像：

craigslist.py

5def clean_pic(ids):

idlist = ids.split(",")

first = idlist0

code = first.replace("1:","")

return "https://images.craigslist.org/%s_300x300.jpg" % code

该函数提取并清除第一个图像的id，然后将其添加到基本URL。

将数据写入Excel电子表格

该make_excel函数获取数据库中的数据并将其写入Excel电子表格。添加电子表格变量：craigslist.py

Headlines = "Pid", "Date", "Cost", "Webpage", "Pic", "Desc", "Created Date"

row = 0

该标题变量是冠军在电子表格中列的列表。该行变量跟踪当前电子表格行。使用xlswriter打开工作簿，并添加一个工作表来接收数据。craigslist.py1 2

workbook = xlsxwriter.Workbook('motorcycle.xlsx')

worksheet = workbook.add_worksheet()准备工作表：

craigslist.pyworksheet.set_column(0,0, 15) # pid

worksheet.set_column(1,1, 20) # date

worksheet.set_column(2,2, 7) # cost

worksheet.set_column(3,3, 10) # webpage

worksheet.set_column(4,4, 7) # picture

worksheet.set_column(5,5, 60) # Description

worksheet.set_column(6,6, 30) # created date

前两项在set_column方法中始终相同。这是因为它正在设置从第一个指示列到下一个列的一部分列的属性。最后一个值是以字符为单位的列的宽度。将列标题写入工作表：

craigslist.py1 2

for col, title in enumerate(Headlines): worksheet.write(row, col, title)

将记录写入数据库：craigslist.py

for item in db.all():

row += 1

worksheet.write(row, 0, item['pid'] )

worksheet.write(row, 1, item['date'] )

worksheet.write(row, 2, item['cost'] )

worksheet.write_url(row, 3, item['webpage'], string='Web Page')

worksheet.write_url(row, 4, item['pic'], string="Picture" )

worksheet.write(row, 5, item['descr'] )

worksheet.write(row, 6, item['createdt'] )

每行中的大多数字段都可以使用worksheet.write; worksheet.write_url用于列表和图像URL。这使得生成的链接可在最终电子表格中单击。关闭Excel工作簿：craigslist.py

workbook.close()

主要常规

主例程将遍历搜索结果的每一页，并在每个页面上运行soup_process函数。它还跟踪全局变量total_added中添加的数据库条目总数，该变量在soup_process函数中更新，并在完成scrape后显示。最后，它创建了一个TinyDB数据库db.json并存储解析后的数据; 当scrape完成时，数据库将传递给make_excel函数以写入电子表格。

craigslist.py

16def main(url):

total_added = 0

db = TinyDB("db.json")

while url:

print ("Web Page: ", url)

soup = soup_process(url, db)

nextlink = soup.find("link", rel="next")

url = False

if (nextlink):

url = nextlink'href'

print ("Added ",total_added)

make_excel(db)

示例运行可能如下所示。请注意，每个页面都在URL中嵌入了索引。这就是Craigslist如何知道下一页数据的开始位置：$ python3 craigslist.py

Web Page: https://elpaso.craigslist.org/search/mcy?sort=date

Adding ... 1

Adding ... 2

Adding ... 3

Web Page: https://elpaso.craigslist.org/search/mcy?s=120&sort=date

Web Page: https://elpaso.craigslist.org/search/mcy?s=240&sort=date

Web Page: https://elpaso.craigslist.org/search/mcy?s=360&sort=date

Web Page: https://elpaso.craigslist.org/search/mcy?s=480&sort=date

Web Page: https://elpaso.craigslist.org/search/mcy?s=600&sort=date

Added 3

设置Cron自动

本节将设置一个cron任务，以定期自动运行抓取脚本。数据以普通用户身份登录您的计算机：ssh normaluser@确保完整craigslist.py脚本位于主目录中：

craigslist.pyfrom bs4 import BeautifulSoup

import datetime

from tinydb import TinyDB, Query

import urllib3

import xlsxwriter

urllib3.disable_warnings(urllib3.exceptions.InsecureRequestWarning)

url = 'https://elpaso.craigslist.org/search/mcy?sort=date'

total_added = 0

def make_soup(url):

http = urllib3.PoolManager()

r = http.request("GET", url)

return BeautifulSoup(r.data,'lxml')

def main(url):

global total_added

db = TinyDB("db.json")

while url:

print ("Web Page: ", url)

soup = soup_process(url, db)

nextlink = soup.find("link", rel="next")

url = False

if (nextlink):

url = nextlink['href']

print ("Added ",total_added)

make_excel(db)

def soup_process(url, db):

global total_added

soup = make_soup(url)

results = soup.find_all("li", class_="result-row")

for result in results:

try:

rec = {

'pid': result['data-pid'],

'date': result.p.time['datetime'],

'cost': clean_money(result.a.span.string.strip()),

'webpage': result.a['href'],

'pic': clean_pic(result.a['data-ids']),

'descr': result.p.a.string.strip(),

'createdt': datetime.datetime.now().isoformat()

}

Result = Query()

s1 = db.search(Result.pid == rec["pid"])

if not s1:

total_added += 1

print ("Adding ... ", total_added)

db.insert(rec)

except (AttributeError, KeyError) as ex:

pass

return soup

def clean_money(amt):

return int(amt.replace("$",""))

def clean_pic(ids):

idlist = ids.split(",")

first = idlist[0]

code = first.replace("1:","")

return "https://images.craigslist.org/%s_300x300.jpg" % code

def make_excel(db):

Headlines = ["Pid", "Date", "Cost", "Webpage", "Pic", "Desc", "Created Date"]

row = 0

workbook = xlsxwriter.Workbook('motorcycle.xlsx')

worksheet = workbook.add_worksheet()

worksheet.set_column(0,0, 15) # pid

worksheet.set_column(1,1, 20) # date

worksheet.set_column(2,2, 7) # cost

worksheet.set_column(3,3, 10) # webpage

worksheet.set_column(4,4, 7) # picture

worksheet.set_column(5,5, 60) # Description

worksheet.set_column(6,6, 30) # created date

for col, title in enumerate(Headlines):

worksheet.write(row, col, title)

for item in db.all():

row += 1

worksheet.write(row, 0, item['pid'] )

worksheet.write(row, 1, item['date'] )

worksheet.write(row, 2, item['cost'] )

worksheet.write_url(row, 3, item['webpage'], string='Web Page')

worksheet.write_url(row, 4, item['pic'], string="Picture" )

worksheet.write(row, 5, item['descr'] )

worksheet.write(row, 6, item['createdt'] )

workbook.close()

main(url)以用户身份添加cron选项卡条目：crontab -e

此示例条目将每天早上6:30运行python程序。30 6 * * * /usr/bin/python3 /home/normaluser/craigslist.py

python程序将编写motorcycle.xlsx电子表格/home/normaluser/。

检索Excel报告

在Linux上

使用scp motorcycle.xlsx从运行python程序的远程计算机复制到此计算机：scp normaluser@:/home/normaluser/motorcycle.xlsx .

在Windows上

使用Firefox的内置sftp功能。在地址栏中键入以下URL，它将请求密码。从显示的目录列表中选择电子表格。sftp://normaluser@/home/normaluser

weixin_39758032

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
linux访问网页元素,如何用Beautiful Soup爬取一个网址

什么是Beautiful Soup？Beautiful Soup是一个Python库，它将HTML或XML文档解析为树结构，以便于从中查找和提取数据。它通常用于从网站上抓取数据。Beautiful Soup具有简单的Pythonic界面和自动编码转换功能，可以轻松处理网站数据。网页是结构化文档，Beaut是一个Python库，它将HTML或XML文档解析为树结构，以便于查找和提取数据。在本指南中，...
复制链接

扫一扫