python 爬虫及multiprocessing包——多线程爬取并解析百度贴吧某贴小trick

最新推荐文章于 2024-03-24 10:10:50 发布

VIP文章无限大地NLP_空木

最新推荐文章于 2024-03-24 10:10:50 发布

阅读量2.5k

点赞数

分类专栏： python 包文章标签：多线程 multiprocessing python

本文链接：https://blog.csdn.net/u010454729/article/details/49765929

版权

preface:看极客学院关于xpath的视频时，偶然看到可以用multiprocessing进行多线程爬取网页，只有小段代码，故先贴出来。mark下。新增xpath提取网页内容，主要分析html文本，然后存为字典写到文件夹中。

参考极客学院的python并行化介绍与演示视频

coding:

#!/usr/bin/env python
# coding=utf-8
from multiprocessing.dummy import Pool as ThreadPool
import requests
import time

def getsource(url):
    html = requests.get(url)

urls = []
for i in range(1,21):
    newpage = "http://tieba.baidu.com/p/3522395718?pn=" + str(i)
    urls.append(newpage)#构造url列表

time1 = time.time()
for i in urls:
    print i
    getsource(i)
time2 = time.ti

最低0.47元/天解锁文章

优惠劵

无限大地NLP_空木

关注关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
python 爬虫及multiprocessing包——多线程爬取并解析百度贴吧某贴小trick

preface:看极客学院关于xpath的视频时，偶然看到可以用multiprocessing进行多线程爬取网页，只有小段代码，故先贴出来。mark下。coding:#!/usr/bin/env python# coding=utf-8from multiprocessing.dummy import Pool as ThreadPoolimport requestsimpor
复制链接

扫一扫