python 多线程读取数据_python3 多线程获取数据实例

import requests

import json

from retrying import retry

from lxml import etree

from queue import Queue

import threading

class QiuShi:

def __init__(self):

# 定义三个队列

self.url_queue = Queue()

self.html_queue = Queue()

self.content_list_queue = Queue()

self.headers = {

"User-Agent":"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.100 Safari/537.36"

}

def get_url_list(self):

url_list = ['https://www.qiushibaike.com/8hr/page/{}/'.format(i) for i in range(1, 14)]

for url in url_list:

# 将url使用put方法放入队列

self.url_queue.put(url)

@retry(stop_max_attempt_number=3)

def _parse_url(self, url):

response = requests.get(url, headers=self.headers, timeout=3)

assert response.status_code == 200

return etree.HTML(response.content)

def parse_url(self):

# 这里需要一个url。

# 因为url = self.url_queue.get()只会从队列里取一次url.所以这里需要加while True循环来取。

# 当url队列里没有url的时候这里会堵塞等待,只要有就取。

# 但是取过后队列的基数并没有减1(并没有减去刚取走的url),所以要在下面使用task_done()

while True:

url = self.url_queue.get()

print(url)

try:

html = self._parse_url(url)

except:

html = None

# 将html添加到队列里

self.html_queue.put(html)

self.url_queue.task_done()

def get_content_list(self):

# 和上面一样

while True:

html = self.html_queue.get()

if html is not None:

div_list = html.xpath('//div[@id="content-left"]/div')

content_list = []

for div in div_list:

item = {}

item['name'] = div.xpath('.//h2/text()')[0].replace("\n", "") if len(div.xpath('.//h2/text()')) > 0 else None

item['content'] = div.xpath('.//div[@class="content"]/span/text()')[0].replace("\n", "") if len(div.xpath('.//div[@class="content"]/span/text()')) > 0 else None

item['comment'] = div.xpath('.//i[@class="number"]/text()')[1] if len(div.xpath('.//i[@class="number"]/text()')) > 0 else None

          item['img'] = div.xpath('.//img/@src') if len(div.xpath('.//img/@src')) > 0 else None

content_list.append(item)

self.content_list_queue.put(content_list)

self.html_queue.task_done()

def save_content_list(self):

while True:

content_list = self.content_list_queue.get()

with open("qiubai.json", "a", encoding="utf-8") as f:

for content in content_list:

json.dump(content, f, ensure_ascii=False, indent=2)

f.write(',\n')

self.content_list_queue.task_done()

def run(self):

thread_list = []

# 创建一个提取url的线程

t_url = threading.Thread(target=self.get_url_list)

thread_list.append(t_url)

# 因为发送请求比较耗时,这里我们就用多线程来做

for i in range(5):

t_parse = threading.Thread(target=self.parse_url)

thread_list.append(t_parse)

# 提取数据也比较耗时,这里我们也使用多线程

for i in range(3):

t_get_content_list = threading.Thread(target=self.get_content_list)

thread_list.append(t_get_content_list)

# 保存数据必须用一个线程要数据就会乱

t_save = threading.Thread(target=self.save_content_list)

thread_list.append(t_save)

for t in thread_list:

t.setDaemon(True) # 守护线程

t.start()

# 当所有队列里没有数据,基数都等于0的时候主线程结束。否则一直堵塞在q.join()

for q in [self.content_list_queue, self.html_queue, self.url_queue]:

q.join()

if __name__ == '__main__':

qiubai = QiuShi()

qiubai.run()

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Python中,使用多线读取文件可以通过使用文件锁来实现线程安全的读取操作。例如,在Linux下,可以使用fcntl库中的文件锁来管理多个线程对同一文件的读取操作。文件锁可以确保在某个线读取文件时,其他线程无法同时进行读取或写入操作,从而避免了重复读和跳读的问题。 为了演示多线读取文件的操作,你可以使用下面的代码片段作为参考: ```python import threading def read_file(): # 获取文件锁 lock = threading.Lock() # 读取文件 with open('text.txt', 'r', encoding='utf-8') as f: # 加锁 lock.acquire() # 读取文件内容 data = f.read() # 解锁 lock.release() # 处理文件内容 # ... ``` 在上面的代码中,我们首先创建了一个线程锁对象,然后在读取文件之前通过`lock.acquire()`方法获取锁,这样其他线程就不能同时进行读取操作。在读取完文件内容后,我们通过`lock.release()`方法释放锁,以便其他线程可以继续读取文件。这样就保证了多个线程之间的读取操作是互斥的,避免了重复读和跳读的问题。 另外,为了测试多线读取文件的效果,你可以使用下面的代码片段生成一个包含随机数的文件: ```python import random def generate_data(): for i in range(100): a = random.randint(10, 99) b = random.randint(10, 99) data = f'num{i+1}:{a} {b}=\n' with open('text.txt', 'a', encoding='utf-8') as f: f.write(data) ``` 以上代码会生成一个名为`text.txt`的文件,其中包含了100行随机数。你可以在多个线程中同时执行`read_file()`函数来测试多线读取文件的效果。请注意,在实际应用中,你需要根据具体情况对文件锁的使用进行调整,并确保线程安全的读取操作。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* [对Python线程读写文件加锁的实例详解](https://download.csdn.net/download/weixin_38623080/13775720)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] - *2* *3* [python使用多线程读写数据到文件2](https://blog.csdn.net/weixin_44799217/article/details/126678163)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值