使用Scrapy爬取笔趣阁全部小说标题和简介

如图,发现笔趣阁的书本URL排列规律是https://www.bigee.cc/book/i/

i的取值范围是[1,180500],for循环遍历这180500个URL解析即可

输入命令创建scrapy 工程

scrapy startproject myspider
cd myspider
scrapy genspider bigee bigee.cc

注:scrapy genspider <爬虫名> <允许爬取的域名>

设置start_urls爬取第一个页面https://www.bigee.cc/book/1/

重写start_requests函数,for循环生成全部书本的请求,交给调度器

对响应进行处理:

在管道中把数据存入description

启用管道

在Settings中设置不遵守机器人协议,设置最大并行请求数为100

设置日志级别为WARNING

启动爬虫,设置记录爬虫状态

scrapy crawl bigee -s JOBDIR=record/spider-1

控制台输出

数据写入txt

Python爬取通常涉及网络爬虫技术,可以使用诸如requests、BeautifulSoup、Scrapy等库来获取网页内容。以下是一个简化的步骤: 1. **安装必要的库**: 首先,需要安装`requests`库来发送HTTP请求,以及`BeautifulSoup`或`lxml`用于解析HTML。 ```bash pip install requests beautifulsoup4 ``` 2. **发送GET请求**: 使用requests.get()函数向的章节列表页面发送请求,并获取响应数据。 ```python import requests url = "https://www.biquge5200.cc/" response = requests.get(url) ``` 3. **解析HTML**: 使用BeautifulSoup解析响应的HTML内容,找到包含章节链接的部分。 ```python from bs4 import BeautifulSoup soup = BeautifulSoup(response.text, 'html.parser') chapter_links = soup.select('.chapter-list a') # 根据实际网页结构选择正确的CSS选择器 ``` 4. **提取并访问详细章节**: 对于每个章节链接,再次发送GET请求到详情页。 ```python for link in chapter_links: chapter_url = link['href'] chapter_content_response = requests.get(chapter_url) chapter_soup = BeautifulSoup(chapter_content_response.text, 'html.parser') # 现在你可以从这里提取文本或其他你需要的信息 ``` 5. **保存或处理数据**: 最后,你可以将抓取的数据保存到文件,数据库,或者直接进行分析。 ```python with open('chapters.txt', 'w', encoding='utf-8') as f: for content in chapter_soup.find_all('p'): # 又一次依赖HTML结构 f.write(content.text + '\n')
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值