Beautifulsoup4 and PyQuery & 线程 | 线程池

Beautifulsoup4

它是python的一个HTML或XML的解析库,可以用它来方便的从网页中提取数据。

  • 依赖器:
    python标准库 “html.parser”
    使用:BeautofulSoup(markup,“html.parser”)
    优势:Python的内置标准库;执行速度适中;文档容错能力强

lxml HTML解析器 “lxml”
使用:BeautofulSoup(markup,“lxml”)
优势:速度快;文档容错能力强

Beautifulsoup4 的基本用法:

soup = BeautifulSoup(html,'lxml')
print(soup.head) ## 获取head标签
print(soup.p.b) ## 获取p节点下的b节点

findall() 方法:
1.name参数:可以根据节点名查询
2.attrs参数 : 可以根据节点属性查询
3.text参数:用来匹配节点文本

css选择器:
获取属性 p.attrs[‘id’]
获取文本: a.get_text() | a.strong

Pyquery

pyquery库时jquery的python实现,能够以jQuery的语法来操作解析HTML 文档,易用性和解析速度高.

from pyquery import PyQuery 
doc = PyQuery(html) # 声明对象
from pyquery import PyQuery as pq
doc = pq(html)
print(doc('#container .list li'))#会查找id为container class为list,标签为li的对象,只是层级关系,没有后者一定是前者的子对象

子元素
from pyquery import PyQuery as pq
doc = pq(html)
items = doc('.list')#拿到items
print(type(items))
print(items)
lis = items.find('li')#利用find方法,查找items里面的li标签,得到的lis也可以继续调用find方法往下查找,层层剥离
print(type(lis))
print(lis)




常见的方法:
.find() 查找嵌套元素
.eq(index) 根据索引获取指定元素 0 开始
py_html(selector) 通过css选择器来获取目标内容。
.text() 获取标签文本
.attr(‘属性值’) : 获取标签属性

线程

import threading  ## 导入模块
## 线程之间的执行时无序的
## 线程是最小的cpu执行单元 
## 线程可以实现多任务,用来处理I/O密集型任务
# 同一线程下的线程的资源是共享的

例子:
data = []
sum = 0

def run1(num,**kwargs):
    # global data
    global sum
    print(kwargs)
    lock.acquire() #加锁
    for i in range(num):
        print(i,threading.currentThread().name)
        # data.append(i)
        sum += 1
    lock.release() #解锁


def run2(num):
    # global data
    global sum
    lock.acquire()
    for i in range(num):
        print(i,threading.currentThread().name)
        # data.append(i)
        sum += 1
    lock.release()

if __name__ == '__main__':

    print('开支执行代码',threading.currentThread().name)

    #线程锁
    lock = threading.Lock()
    #创建线程
    #target:执行的函数
    #name:设置线程的名称
    #args:给执行的函数传递参数(tuple)
    #kwargs:给执行的函数传递参数(dict)
    #daemon:默认为Flase,主线程结束,不影响子线程执行
    #daemon:为True,主线程结束,子线程结束
    thread1 = threading.Thread(
        target=run1,name='线程1',
        args=(10000,),kwargs={'name':'lihua'},
        daemon=True
    )

    thread2 = threading.Thread(
        target=run2, name='线程2',
        args=(10000,),
        daemon=True
    )

    #开启线程,执行任务
    thread1.start()
    thread2.start()

    # join(),线程的阻塞(同步),让子线程中的任务执行完毕,
    # 再回到主线程中继续执行
    # thread1.join()
    # thread2.join()

    print(data,sum)

    print('代码执行完毕', threading.currentThread().name)

线程池

添加线程池,更加快的请求数据,执行程序

from concurrent.futures import ThreadPoolExecutor

## 创建池
pool  = ThreadPoolExecutor(10)
###在池中添加任务(例如频繁的请求任务)
result = pool.submit(self.send_request, url)
## 添加回调函数
result.add_done_callback(self.parse_info)

## 回调函数输出结果
def  parseinfo(self.future):
	text = future.result()
	print(text)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值