python3爬虫实战(3)

今天心血来潮去爬取了一下招聘网站的实时招聘信息。网址是http://xiaoyuan.zhaopin.com

选的条件是北京,实习生,计算机软件。分析代码之后发现还是很容易的,不过过程中出了不少小问题,在这里分享一下。

想要爬取的是类似的表单内容。是在ul的li里。

用BeautifulSoup解析之后,tem_ul = bsoj.find("ul",{"class":"terminal-ul clearfix"})存下整个ul元素。

对于从tem_ul中提取出所有li元素,lis = str(tem_ul("li")),返回lis是列表类型。

lisoup = BeautifulSoup(lis,'lxml')将lis继续进行解析。分析代码发现冒号前的是在li.span里,而冒号后的是在li.strong里,而且互相混杂,比如strong里有span等。

分析出数据错乱的问题所在,使用del list[i]删除第i+1个元素。

    spans = lisoup.find_all("span")
    del spans[3]
    strongs = lisoup.find_all("strong")
    d = zip(spans,strongs)
    d = dict(d)
    for item1,item2 in d.items():
        fp.write(item1.get_text())
        fp.write(item2.get_text()+"\n")

如上,将span和st

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值