声明
本爬虫仅供学习交流使用,请勿用作商业用途。爬取的时候注意控制速度,勿对网站造成攻击。
1. 实现说明
该政府网站没有任何反爬虫措施,直接抓取即可,注意不要对网站造成攻击。
思路:
- 通过 scrapy 抓取网页;
- 利用 xpath 解析网页,提取药品信息;
- 将提取的信息写入 csv 文件;
- 观察网页结构,构造下一页 url;
- 新的 url 重复 1-4 步。
2. 一些细节说明
主要参考文档:
使用的一些命令:
- 创建一个 scrapy 项目:
scrapy startproject jiang_xi_drug_spider - 在 shell 中使用 scrapy 爬取一个页面,便于调试抓取数据:
scrapy shell "https://yp.jxyycg.cn/djypcg/jxyycg/search/medicineRegionBidPriceQry.shtml?dypn=1" '
注:因为网站很规律,没有遇到异常, 所以代码没有做异常捕获处理。正常需要,捕获异常, 记录爬取失败的 url和数据,方便分析和重新抓取。
3. 一些踩坑说明
- 存为 csv 时,用本地的 Excel 打开乱码,可以根据这篇帖子解决:csv 文件打开乱码,有哪些方法可以解决?
4. 核心代码
import os
from typing import Any
import scrapy
import csv
import pathlib
class DrugSpider(scrapy.Spider):
name = 'jiang_xi_drug'
start_

最低0.47元/天 解锁文章
470

被折叠的 条评论
为什么被折叠?



