python爬虫之PyQuery库程序笔记


# 字符串初始化
# html = '<div><ul class="list" ><li class="i_0">0</li><li class="i_1"><a href="http://www.baid.com">baidu</a></li><li class="i_3"><p id="where">where</p></li></ul></div>'
# from pyquery import PyQuery as pq
# doc = pq(html)  #声明pq对象,html作为参数
# print(doc('li'))


# url初始化
# from pyquery import PyQuery as pq
# doc = pq(url='http://www.baidu.com')
# print(doc('head'))   # 打印头部信息




# 本地文件初始化
# from pyquery import PyQuery as pq
# doc = pq(filename='demo.html')   # 读取本地文件
# print(doc('li'))



# 基本css选择器
# from pyquery import PyQuery as pq
# doc = pq(html)
# print(doc('.i_3 #where')) # 与其他css选择器相同


# # 查找子元素
# from pyquery import PyQuery as pq
# doc = pq(html)
# item = doc('.list')
# # print(type(item))
# # print(item)
# lis = item.find('li')   #   常用:使用find()方法查找元素子元素,其中的参数也是css选择器,只要在他里面就可以查找
# # print(type(lis))  # 每一个选择的结果都是pyquery对象,则可以使用嵌套
# # print(lis)
# lists = item.children()   # 也可以在其中传入参数
#
# print(type(lis))
# print(lis)


# 父元素
# item = doc('.list')
# parent = item.parents()   #也可以在其中传入css选择器,item.parents('.class')
# print(parent)

# 兄弟元素
# html = '<div><ul class="list" ><li class="i_0 active">0</li><li class="i_1"><a href="http://www.baid.com">baidu</a></li><li class="i_3"><p id="where">where</p></li></ul></div>'
# from pyquery import PyQuery as pq
# doc = pq(html)
# li = doc('.i_0')
# print(li.siblings())   ## 输出出所有的li

# from pyquery import PyQuery as pq
# doc = pq(html)
# li = doc('li')  # 与下面达到的效果相同
# print(li)
#


# 遍历
# from pyquery import PyQuery as pq
# doc = pq(html)
# lis = doc('li').items() # 创建一个产生器,然后构造一个循环,对lis进行遍历输出
# print(type(lis))
# for li in lis:
#     print(li)


# 获取属性
# from pyquery import PyQuery as pq
# doc = pq(html)
# li = doc('li')
#
# a = doc('.i_1 a')
# # print(a)
# print(a.attr('href'))   #获取属性方法1:使用attr()方法,直接将参数传入
# print(a.attr.href)   # 获取属性方法2


#获取文本:使用.text()方法来获取文本
# print(a.text())   # 获取a标签的内容、
#


# 获取html
# # 使用html方法
# print(li.html())


 # DOM操作

# add class,move class :完成对class的操作
from pyquery import PyQuery as pq
html = '<div><ul class="list" ><li class="i_0 active">0</li><li class="i_1 active"><a href="http://www.baid.com">baidu</a></li><li class="i_3"><p id="where">where</p></li></ul></div>'
# doc = pq(html)
# li = doc('.i_0.active')
# print(li)
# li.removeClass('active')
# print(li)
# li.addClass('active')
# print(li)
# print(li)
# attr,css属性
# doc = pq(html)
# li = doc('.i_1.active')   # 为li标签添加name属性和link属性值
# print(li)
# li.attr('name','link')
# print(li)
# li.css('font-size','14px')   # 为li标签添加font-size属性
# print(li)

# html = '<div class="wrap">hello,world<p>this is a</p></div>'
# from pyquery import PyQuery as pq
# doc = pq(html)
# wrap = doc('.wrap')
# print(wrap.text())
# wrap.find('p').remove()
# print(wrap.text())
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值