爬虫学习-第十一篇

最新推荐文章于 2024-04-15 23:03:29 发布

freshbin000

最新推荐文章于 2024-04-15 23:03:29 发布

阅读量108

点赞数

分类专栏： python 文章标签： pyquery

本文链接：https://blog.csdn.net/freshbin000/article/details/100126958

版权

python 专栏收录该内容

35 篇文章 1 订阅

订阅专栏

"""
Version: 0.1
Author: freshbin
Date: 2019年8月28日
"""

print("=================================pyquey使用 start================================================")

# 初始化
html = '''
<div class="wrap"><p>123</p>
<div id="container">
<ul class="list">
<li class="item-0">first item</li>
<li class="item-1"><a href="link2.html">second item</a></li>
<li class="list item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>
<li class="item-1 active"><a href="link4.html">fourth item</a></li>
<li class="item-0"><a href="link5.html">fifth item</a></li>
</ul>
</div>
</div>
'''
# from pyquery import PyQuery as pq

# doc = pq(html)
# print(doc('li'))

# URL初始化
# from pyquery import PyQuery as pq
# doc = pq(url='https://cuiqingcai.com')
# print(doc('title'))

# 文件初始化
# from pyquery import PyQuery as pq
# doc = pq(filename='demo.html')
# print(doc('li'))

# 基本CSS选择器
# from pyquery import PyQuery as pq
# doc = pq(html)
# print(doc('#container .list li'))
# print(type(doc('#container .list li')))

# 查找节点
# 查找子节点
# from pyquery import PyQuery as pq

# doc = pq(html)
# items = doc('.list')
# print(type(items))
# print(items)

# lis = items.find('li') # 查找所有子孙节点
# lis = items.children() # 查找子节点
# lis = items.children('.active') # 筛选出子节点中class为active的节点

# print(type(lis))
# print(lis)

# 父节点
# from pyquery import PyQuery as pq

# doc = pq(html)
# items = doc('.list')
# container = items.parent() # 直接父节点
# print(type(container))
# print(container)
# parents = items.parents('.wrap') # 祖先节点
# print(type(parents))
# print(parents)

# 兄弟节点
# from pyquery import PyQuery as pq
# doc = pq(html)
# li = doc('.list .item-0.active') # 不知道为什么，如果是.item-0与.active多一个空格，那么就会取不到选择器
# print(li.siblings('.active'))

# 遍历
# from pyquery import PyQuery as pq
# doc = pq(html)
# lis = doc('li').items()
# print(type(lis))
# for li in lis:
#     print(li, type(li))

# 获取信息
# from pyquery import PyQuery as pq
# doc = pq(html)
# a = doc('.item-0.active a')
# print(a, type(a))
# for item in a.items():
#     print(item.attr('href'))

# 获取文本
# from pyquery import PyQuery as pq
# doc = pq(html)
# a = doc('.item-0.active a')
# print(a)
# print(a.text()) # 返回所有text内容，所有节点取文本之后合并成一个字符串
# li = doc('.item-0.active')
# print(li)
# print(li.html()) # 返回第一个li节点的内部HTML文本，所以如果要获取所有节点，那么需要遍历

# 节点操作
# from pyquery import PyQuery as pq
# doc = pq(html)
# li = doc('.item-0.active')
# print(li)
# li.remove_class('active')
# print(li)
# li.add_class('active')
# print(li)

# attr、text和html
# from pyquery import PyQuery as pq
# doc = pq(html)
# li = doc('.item-0.active')
# print(li)
# li.attr('name', 'link')
# print(li)
# li.text('changed item')
# print(li)
# li.html('<span>changed item</span>')
# print(li)

# remove()
# from pyquery import PyQuery as pq
# doc = pq(html)
# wrap = doc('.wrap')
# wrap.find('p').remove()
# print(wrap.text())
# 更多方法见 http://pyquery.readthedocs.io/en/latest/api.html

# 伪类选择器
from pyquery import PyQuery as pq
doc = pq(html)
li = doc('li:first-child')
print(li)
li = doc('li:lats-child')
print(li)
li = doc('li:nth-child(2)')
print(li)
li = doc('li:gt(2)')
print(li)
li = doc('li:nth-child(2n)')
print(li)
li = doc('li:contains(seconds)')
print(li)
# 更多关于CSS选择器的用法：http://www.w3school.com.cn/css/index.asp
# 更多pyquery的官方文档：http://pyquery.readthedocs.io

print("=================================pyquey使用 end================================================")

freshbin000

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
爬虫学习-第十一篇

"""Version: 0.1Author: freshbinDate: 2019年8月28日"""print("=================================pyquey使用 start================================================")# 初始化html = '''<div class="wrap"...
复制链接

扫一扫