Beautifulsoup4 and PyQuery & 线程 | 线程池

最新推荐文章于 2021-08-17 13:21:38 发布

叛冷

最新推荐文章于 2021-08-17 13:21:38 发布

阅读量99

点赞数

分类专栏： python3

本文链接：https://blog.csdn.net/m0_43434727/article/details/100709743

版权

python3 专栏收录该内容

17 篇文章 0 订阅

订阅专栏

Beautifulsoup4

它是python的一个HTML或XML的解析库，可以用它来方便的从网页中提取数据。

依赖器：
python标准库 “html.parser”
使用：BeautofulSoup(markup,“html.parser”)
优势：Python的内置标准库；执行速度适中；文档容错能力强

lxml HTML解析器 “lxml”
使用：BeautofulSoup(markup,“lxml”)
优势：速度快；文档容错能力强

Beautifulsoup4 的基本用法：

soup = BeautifulSoup(html,'lxml')
print(soup.head) ## 获取head标签
print(soup.p.b) ## 获取p节点下的b节点

findall() 方法:
1.name参数：可以根据节点名查询
2.attrs参数 : 可以根据节点属性查询
3.text参数：用来匹配节点文本

css选择器：
获取属性 p.attrs[‘id’]
获取文本： a.get_text() | a.strong

Pyquery

pyquery库时jquery的python实现，能够以jQuery的语法来操作解析HTML 文档，易用性和解析速度高.

from pyquery import PyQuery 
doc = PyQuery(html) # 声明对象
from pyquery import PyQuery as pq
doc = pq(html)
print(doc('#container .list li'))#会查找id为container class为list，标签为li的对象，只是层级关系，没有后者一定是前者的子对象

子元素
from pyquery import PyQuery as pq
doc = pq(html)
items = doc('.list')#拿到items
print(type(items))
print(items)
lis = items.find('li')#利用find方法，查找items里面的li标签，得到的lis也可以继续调用find方法往下查找，层层剥离
print(type(lis))
print(lis)

常见的方法：
.find() 查找嵌套元素
.eq(index) 根据索引获取指定元素 0 开始
py_html(selector) 通过css选择器来获取目标内容。
.text() 获取标签文本
.attr(‘属性值’) ：获取标签属性

线程

import threading  ## 导入模块
## 线程之间的执行时无序的
## 线程是最小的cpu执行单元 
## 线程可以实现多任务，用来处理I/O密集型任务
# 同一线程下的线程的资源是共享的

例子：
data = []
sum = 0

def run1(num,**kwargs):
    # global data
    global sum
    print(kwargs)
    lock.acquire() #加锁
    for i in range(num):
        print(i,threading.currentThread().name)
        # data.append(i)
        sum += 1
    lock.release() #解锁


def run2(num):
    # global data
    global sum
    lock.acquire()
    for i in range(num):
        print(i,threading.currentThread().name)
        # data.append(i)
        sum += 1
    lock.release()

if __name__ == '__main__':

    print('开支执行代码',threading.currentThread().name)

    #线程锁
    lock = threading.Lock()
    #创建线程
    #target:执行的函数
    #name:设置线程的名称
    #args:给执行的函数传递参数(tuple)
    #kwargs:给执行的函数传递参数（dict）
    #daemon:默认为Flase,主线程结束，不影响子线程执行
    #daemon:为True,主线程结束，子线程结束
    thread1 = threading.Thread(
        target=run1,name='线程1',
        args=(10000,),kwargs={'name':'lihua'},
        daemon=True
    )

    thread2 = threading.Thread(
        target=run2, name='线程2',
        args=(10000,),
        daemon=True
    )

    #开启线程，执行任务
    thread1.start()
    thread2.start()

    # join(),线程的阻塞（同步）,让子线程中的任务执行完毕，
    # 再回到主线程中继续执行
    # thread1.join()
    # thread2.join()

    print(data,sum)

    print('代码执行完毕', threading.currentThread().name)

线程池

添加线程池，更加快的请求数据，执行程序

from concurrent.futures import ThreadPoolExecutor

## 创建池
pool  = ThreadPoolExecutor(10)
###在池中添加任务（例如频繁的请求任务）
result = pool.submit(self.send_request, url)
## 添加回调函数
result.add_done_callback(self.parse_info)

## 回调函数输出结果
def  parseinfo(self.future):
	text = future.result()
	print(text)

叛冷

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Beautifulsoup4 and PyQuery & 线程 | 线程池

Beautifulsoup4它是python的一个HTML或XML的解析库，可以用它来方便的从网页中提取数据。依赖器：python标准库 “html.parser”使用：BeautofulSoup(markup,“html.parser”)优势：Python的内置标准库；执行速度适中；文档容错能力强lxml HTML解析器 “lxml”使用：BeautofulSoup(mar...
复制链接

扫一扫