创建一个新scrapy项目:scrapy genspider boatcompany www.sofreight.com
使用scrapy爬取航司网站数据
爬取一个div中所有文字text:text = response.xpath('//div[@class="carrier_desc"]').xpath('string(.)').extract_first()
爬取链接时要注意空链接判断
使用re匹配寻找船公司官网
匹配http:
pattern = re.compile(r'http[s]?://(?:[a-zA-Z]|[0-9]|[$-_@.&+]|[!*\(\),]|(?:%[0-9a-fA-F][0-9a-fA-F]))+') # 匹配模式
web_url = re.findall(pattern, meta_strs)
匹配以中文结尾的字符:
pattern_str = re.compile(r'%s(.+?)%s'%(':','有限公司'))
cna = re.findall(pattern_str, meta_strs)
python代理:fake_useragent