提交关键字到必应搜索,将首页相关url写入excel

已有excel表格,表格含有一列待搜索关键字,如下:
在这里插入图片描述
查阅得知使用xlwt、xlrd两个python库分别完成xls文件的写入和读出。
首先读出该表格对应那列关键字,编码方式使用utf-8,防止乱码,此时,用全局变量暂时存储所有关键字

excel_path = "/mnt/hgfs/share/brand.xls"
excel = xlrd.open_workbook(excel_path, encoding_override="utf-8")
# 获取对应工作表
sheet = excel.sheet_by_index(0)
# 获取关键字那一列
brand_list = sheet.col(0)

使用scrapy爬虫框架,第一级方法提交对应的搜索页面url,下一级方法用xpath定位返回的url,通过正则表达式匹配首页的url,其中域名含有关键字的写入对应关键字旁一列,如此直到关键字搜索完毕。

第一级方法中将对应关键字传入第二级方法中便于筛选,如下

request = scrapy.Request(url, meta={
   'brand': brand}, callback=self.parse_list)

正则表达式匹配关键字是否在url域名中,如下

# ://任意字符(任意次)+列表获得的品牌名(一次)+任意字符(任意次)+.+数字或字母(一次)+/
demo = re
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值