python3爬虫实战(3)

本文介绍了使用Python3爬虫抓取招聘网站上的北京地区实习生计算机软件职位信息。通过BeautifulSoup解析HTML,提取所需数据,包括公司名称和职位信息,并存储到文本文件中。同时,分享了如何处理数据错乱问题以及如何获取实际跳转链接。最后,讨论了如何通过批处理脚本实现定时抓取。
摘要由CSDN通过智能技术生成

今天心血来潮去爬取了一下招聘网站的实时招聘信息。网址是http://xiaoyuan.zhaopin.com

选的条件是北京,实习生,计算机软件。分析代码之后发现还是很容易的,不过过程中出了不少小问题,在这里分享一下。

想要爬取的是类似的表单内容。是在ul的li里。

用BeautifulSoup解析之后,tem_ul = bsoj.find("ul",{"class":"terminal-ul clearfix"})存下整个ul元素。

对于从tem_ul中提取出所有li元素,lis = str(tem_ul("li")),返回lis是列表类型。

lisoup = BeautifulSoup(lis,'lxml')将lis继续进行解析。分析代码发现冒号前的是在li.span里,而冒号后的是在li.strong里,而且互相混杂,比如strong里有span等。

分析出数据错乱的问题所在,使用del list[i]删除第i+1个元素。

    spans = lisoup.find_all("span")
    del spans[3]
    strongs = lisoup.find_all("strong")
    d = zip(spans,strongs)
    d = dict(d)
    for item1,item2 in d.items():
        fp.write(item1.get_text())
        fp.write(item2.get_text()+"\n")

如上,将span和st

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值