在本文中,我们将使用Scrapy框架来爬取当当网的图书信息。
Scrapy是一个强大的Python爬虫框架,可以帮助我们快速高效地从网页中提取所需的数据。
首先,我们需要创建一个爬虫组件。在这个组件中,我们定义了爬虫的名称、允许的域名以及起始的爬虫页面。
在parse
方法中,我们使用BeautifulSoup库来解析网页内容,并通过CSS选择器提取所需的数据。
`import scrapy from bs4 import BeautifulSoup class DangSpider(scrapy.Spider): name = "dang" allowed_domains = ["www.dangdang.com"] start_urls = ["http://bang.dangdang.com/books/bestsellers/01.00.00.00.00.00-recent7-0-0-1-1"] def parse(self, response): html = response.text soup = BeautifulSoup(html, 'html.parser') for i in range(0, 20): dit = {} dit['name'] = soup.find_all('div', class_='name')[i].text dit['comments'] = soup.find_all('div', class_='star')[i].text dit[&#