python采集文章_Python多线程采集网站title/description/keywords

最新推荐文章于 2023-02-12 17:04:25 发布

weixin_39631094

最新推荐文章于 2023-02-12 17:04:25 发布

阅读量204

点赞数

文章标签： python采集文章

本文信息本文由方法SEO顾问发表于2015-06-0815:50:03，共 1417 字，转载请注明：Python多线程采集网站title/description/keywords_【方法SEO顾问】，如果我网站的文章对你有所帮助的话，来百度口碑给个好评呗！

手中有一个20W的URL列表的TXT文件，想把这20W的页面的title/description/keywords都提取出来，shell只能单线程，而且通过curl方式

该代码默认是4线程的，如果需要更多的线程，只需要把test(l,4)中的4改为更大的数值就行了。

代码中需要用到BeautifulSoup这个库，关于怎么在windows系统下安装这个库，可以看看这个教程：

# -*- coding: utf-8 -*-

from bs4 import BeautifulSoup

import requests

import threading

import Queue

import time

with open('url.txt') as f:

l = f.readlines()

def btdk(url):

try:

html = requests.get(url, timeout = 10).text

except:

html = '

%s'%url

soup = BeautifulSoup(html.lower())

t = soup.title.text.encode('utf8','ignore')

try:

k = soup.find(attrs={"name":"keywords"})['content'].encode('utf8','ignore')

except:

k = ""

try:

d = soup.find(attrs={"name":"description"})['content'].encode('utf8','ignore')

except:

d = ""

return t,d,k

class MyThread(threading.Thread):

def __init__(self, queue, url):

threading.Thread.__init__(self)

self.queue = queue

self.url = url

def run(self):

while True:

url = self.queue.get()

t,k,d = btdk(url)

with open('tdk.txt', 'a+') as s:

line = url+'#'+t+'#'+'\n'

s.writelines(line)

self.queue.task_done()

def test(l, ts=4):

ll = [i.rstrip() for i in l]

for j in range(ts):

t = MyThread(queue,ll)

t.setDaemon(True)

t.start()

for url in ll:

queue.put(url)

queue.join()

if __name__ == '__main__':

queue = Queue.Queue()

start = time.time()

test(l,4)

end = time.time()

print '共耗时:%s秒' % (end - start)

weixin_39631094

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。