2018.1.9 爬虫学习第三天

#encoding: utf-8

from bs4 import BeautifulSoup

html = “”"

职位名称职位类别人数地点发布时间
22989-金融云区块链高级研发工程师(深圳)技术类1深圳2017-11-25
22989-金融云高级后台开发技术类2深圳2017-11-25
SNG16-腾讯音乐运营开发工程师(深圳)技术类2深圳2017-11-25
SNG16-腾讯音乐业务运维工程师(深圳)技术类1深圳2017-11-25
TEG03-高级研发工程师(深圳)技术类1深圳2017-11-24
TEG03-高级图像算法研发工程师(深圳)技术类1深圳2017-11-24
TEG11-高级AI开发工程师(深圳)技术类4深圳2017-11-24
15851-后台开发工程师技术类1深圳2017-11-24
15851-后台开发工程师技术类1深圳2017-11-24
SNG11-高级业务运维工程师(深圳)技术类1深圳2017-11-24
"""
# 1. 获取所有tr标签
# 2. 获取第2个tr标签
# 3. 获取所有class等于even的tr标签
# 4. 将所有id等于test,class也等于test的a标签提取出来。
# 5. 获取所有a标签的href属性
# 6. 获取所有的职位信息(纯文本)

soup = BeautifulSoup(html,'lxml')

# 1. 获取所有tr标签
# trs = soup.find_all('tr')
# for tr in trs:
#     print(tr)
#     print('='*30)

# 2. 获取第2个tr标签
# tr = soup.find_all('tr',limit=2)[1]
# print(tr)

# 3. 获取所有class等于even的tr标签
# atrribute
# trs = soup.find_all('tr',attrs={'class':"even"})
# for tr in trs:
#     print(tr)
#     print('='*30)

# 4. 将所有id等于test,class也等于test的a标签提取出来。
# aList = soup.find_all('a',id='test',class_='test')
# aList = soup.find_all('a',attrs={"id":"test","class":"test"})
# for a in aList:
#     print(a)

# 5. 获取所有a标签的href属性
# aList = soup.find_all('a')
# for a in aList:
#     # 1. 通过下表操作的方式
#     # href = a['href']
#     # print(href)
#     # 2. 通过attrs属性的方式
#     href = a.attrs['href']
#     print(href)

# 6. 获取所有的职位信息(纯文本)
# trs = soup.find_all('tr')[1:]
# movies = []
# for tr in trs:
#     movie = {}
#     # tds = tr.find_all("td")
#     # title = tds[0].string
#     # category = tds[1].string
#     # nums = tds[2].string
#     # city = tds[3].string
#     # pubtime = tds[4].string
#     # movie['title'] = title
#     # movie['category'] = category
#     # movie['nums'] = nums
#     # movie['city'] = city
#     # movie['pubtime'] = pubtime
#     # movies.append(movie)
#
#     infos = list(tr.stripped_strings)
#     movie['title'] = infos[0]
#     movie['category'] = infos[1]
#     movie['nums'] = infos[2]
#     movie['city'] = infos[3]
#     movie['pubtime'] = infos[4]
#     movies.append(movie)
#
# print(movies)

tr = soup.find_all('tr')[1]
text = tr.string
print(text)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值