scrapy爬虫

最新推荐文章于 2024-06-23 10:28:56 发布

DwyanePeng

最新推荐文章于 2024-06-23 10:28:56 发布

阅读量215

点赞数

分类专栏： Python 爬虫

本文链接：https://blog.csdn.net/DwyanePeng/article/details/93069639

版权

Python 同时被 2 个专栏收录

23 篇文章 0 订阅

订阅专栏

爬虫

4 篇文章 0 订阅

订阅专栏

创建一个新scrapy项目：scrapy genspider boatcompany www.sofreight.com
使用scrapy爬取航司网站数据
爬取一个div中所有文字text：text = response.xpath('//div[@class="carrier_desc"]').xpath('string(.)').extract_first()

爬取链接时要注意空链接判断
使用re匹配寻找船公司官网

匹配http：
pattern = re.compile(r'http[s]?://(?:[a-zA-Z]|[0-9]|[$-_@.&+]|[!*,]|(?:%[0-9a-fA-F][0-9a-fA-F]))+') # 匹配模式
web_url = re.findall(pattern, meta_strs)

匹配以中文结尾的字符：
pattern_str = re.compile(r'%s(.+?)%s'%('：','有限公司'))
cna = re.findall(pattern_str, meta_strs)

python代理：fake_useragent

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

DwyanePeng

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
scrapy爬虫

创建一个新scrapy项目：scrapy genspider boatcompany www.sofreight.com使用scrapy爬取航司网站数据爬取一个div中所有文字text：text = response.xpath('//div[@class="carrier_desc"]').xpath('string(.)').extract_first()爬取链接时要注意空链接判断使...
复制链接

扫一扫