2018.1.9 爬虫学习第三天

最新推荐文章于 2021-01-14 17:12:33 发布

荇䔽Boso

最新推荐文章于 2021-01-14 17:12:33 发布

阅读量163

点赞数

分类专栏： python

本文链接：https://blog.csdn.net/weixin_42879237/article/details/86178908

版权

python 专栏收录该内容

84 篇文章 0 订阅

订阅专栏

#encoding: utf-8

from bs4 import BeautifulSoup

html = “”"

职位名称	职位类别	人数	地点	发布时间
22989-金融云区块链高级研发工程师（深圳）	技术类	1	深圳	2017-11-25
22989-金融云高级后台开发	技术类	2	深圳	2017-11-25
SNG16-腾讯音乐运营开发工程师（深圳）	技术类	2	深圳	2017-11-25
SNG16-腾讯音乐业务运维工程师（深圳）	技术类	1	深圳	2017-11-25
TEG03-高级研发工程师（深圳）	技术类	1	深圳	2017-11-24
TEG03-高级图像算法研发工程师（深圳）	技术类	1	深圳	2017-11-24
TEG11-高级AI开发工程师（深圳）	技术类	4	深圳	2017-11-24
15851-后台开发工程师	技术类	1	深圳	2017-11-24
15851-后台开发工程师	技术类	1	深圳	2017-11-24
SNG11-高级业务运维工程师（深圳）	技术类	1	深圳	2017-11-24

"""

# 1. 获取所有tr标签
# 2. 获取第2个tr标签
# 3. 获取所有class等于even的tr标签
# 4. 将所有id等于test，class也等于test的a标签提取出来。
# 5. 获取所有a标签的href属性
# 6. 获取所有的职位信息（纯文本）

soup = BeautifulSoup(html,'lxml')

# 1. 获取所有tr标签
# trs = soup.find_all('tr')
# for tr in trs:
#     print(tr)
#     print('='*30)

# 2. 获取第2个tr标签
# tr = soup.find_all('tr',limit=2)[1]
# print(tr)

# 3. 获取所有class等于even的tr标签
# atrribute
# trs = soup.find_all('tr',attrs={'class':"even"})
# for tr in trs:
#     print(tr)
#     print('='*30)

# 4. 将所有id等于test，class也等于test的a标签提取出来。
# aList = soup.find_all('a',id='test',class_='test')
# aList = soup.find_all('a',attrs={"id":"test","class":"test"})
# for a in aList:
#     print(a)

# 5. 获取所有a标签的href属性
# aList = soup.find_all('a')
# for a in aList:
#     # 1. 通过下表操作的方式
#     # href = a['href']
#     # print(href)
#     # 2. 通过attrs属性的方式
#     href = a.attrs['href']
#     print(href)

# 6. 获取所有的职位信息（纯文本）
# trs = soup.find_all('tr')[1:]
# movies = []
# for tr in trs:
#     movie = {}
#     # tds = tr.find_all("td")
#     # title = tds[0].string
#     # category = tds[1].string
#     # nums = tds[2].string
#     # city = tds[3].string
#     # pubtime = tds[4].string
#     # movie['title'] = title
#     # movie['category'] = category
#     # movie['nums'] = nums
#     # movie['city'] = city
#     # movie['pubtime'] = pubtime
#     # movies.append(movie)
#
#     infos = list(tr.stripped_strings)
#     movie['title'] = infos[0]
#     movie['category'] = infos[1]
#     movie['nums'] = infos[2]
#     movie['city'] = infos[3]
#     movie['pubtime'] = infos[4]
#     movies.append(movie)
#
# print(movies)

tr = soup.find_all('tr')[1]
text = tr.string
print(text)