#encoding: utf-8
from bs4 import BeautifulSoup
html = “”"
职位名称 | 职位类别 | 人数 | 地点 | 发布时间 |
22989-金融云区块链高级研发工程师(深圳) | 技术类 | 1 | 深圳 | 2017-11-25 |
22989-金融云高级后台开发 | 技术类 | 2 | 深圳 | 2017-11-25 |
SNG16-腾讯音乐运营开发工程师(深圳) | 技术类 | 2 | 深圳 | 2017-11-25 |
SNG16-腾讯音乐业务运维工程师(深圳) | 技术类 | 1 | 深圳 | 2017-11-25 |
TEG03-高级研发工程师(深圳) | 技术类 | 1 | 深圳 | 2017-11-24 |
TEG03-高级图像算法研发工程师(深圳) | 技术类 | 1 | 深圳 | 2017-11-24 |
TEG11-高级AI开发工程师(深圳) | 技术类 | 4 | 深圳 | 2017-11-24 |
15851-后台开发工程师 | 技术类 | 1 | 深圳 | 2017-11-24 |
15851-后台开发工程师 | 技术类 | 1 | 深圳 | 2017-11-24 |
SNG11-高级业务运维工程师(深圳) | 技术类 | 1 | 深圳 | 2017-11-24 |
# 1. 获取所有tr标签
# 2. 获取第2个tr标签
# 3. 获取所有class等于even的tr标签
# 4. 将所有id等于test,class也等于test的a标签提取出来。
# 5. 获取所有a标签的href属性
# 6. 获取所有的职位信息(纯文本)
soup = BeautifulSoup(html,'lxml')
# 1. 获取所有tr标签
# trs = soup.find_all('tr')
# for tr in trs:
# print(tr)
# print('='*30)
# 2. 获取第2个tr标签
# tr = soup.find_all('tr',limit=2)[1]
# print(tr)
# 3. 获取所有class等于even的tr标签
# atrribute
# trs = soup.find_all('tr',attrs={'class':"even"})
# for tr in trs:
# print(tr)
# print('='*30)
# 4. 将所有id等于test,class也等于test的a标签提取出来。
# aList = soup.find_all('a',id='test',class_='test')
# aList = soup.find_all('a',attrs={"id":"test","class":"test"})
# for a in aList:
# print(a)
# 5. 获取所有a标签的href属性
# aList = soup.find_all('a')
# for a in aList:
# # 1. 通过下表操作的方式
# # href = a['href']
# # print(href)
# # 2. 通过attrs属性的方式
# href = a.attrs['href']
# print(href)
# 6. 获取所有的职位信息(纯文本)
# trs = soup.find_all('tr')[1:]
# movies = []
# for tr in trs:
# movie = {}
# # tds = tr.find_all("td")
# # title = tds[0].string
# # category = tds[1].string
# # nums = tds[2].string
# # city = tds[3].string
# # pubtime = tds[4].string
# # movie['title'] = title
# # movie['category'] = category
# # movie['nums'] = nums
# # movie['city'] = city
# # movie['pubtime'] = pubtime
# # movies.append(movie)
#
# infos = list(tr.stripped_strings)
# movie['title'] = infos[0]
# movie['category'] = infos[1]
# movie['nums'] = infos[2]
# movie['city'] = infos[3]
# movie['pubtime'] = infos[4]
# movies.append(movie)
#
# print(movies)
tr = soup.find_all('tr')[1]
text = tr.string
print(text)