- 博客(4)
- 资源 (9)
- 收藏
- 关注
原创 Python爬虫——多线程+协程threading+gevent
上一篇博客中我介绍了如何将爬虫改造为多进程爬虫,但是这种方法对爬虫效率的提升不是非常明显,而且占用电脑cpu较高,不是非常适用于爬虫。这篇博客中,我将介绍在爬虫中广泛运用的多线程+协程的解决方案,亲测可提高效率至少十倍以上。 本文既然提到了线程和协程,我觉得有必要在此对进程、线程、协程做一个简单的对比,了解这三个程之间的区别。 以下摘自这篇文章:http://www.cnblogs.c...
2017-07-30 13:37:56 10342 3
原创 Python爬虫——多进程multiprocessing
其实多进程相对来说不是特别适合用来做爬虫,因为多进程比较适用于计算密集型,而爬虫是IO密集型,因此多进程爬虫对速度的提升不是特别明显,但是将爬虫改为多进程比较简单,只需简单的几行代码即可搞定,所以在修改我的爬虫提升效率时,我最先实现的是多进程爬虫。(然而速度真心还是慢,我多线程+协程的程序跑的晚,却早已经结束工作了,多进程的还在苦战…) 下面我通过实例来进行介绍。 我爬取的数据是外文数...
2017-07-30 10:57:59 6556
原创 python下解压缩zip文件并删除文件
利用python下载数据,下载下来的数据为zip格式,因为有上千个这样的文件,因此便直接在爬虫程序里加入了解压缩zip文件的内容,并且因为数据量较大,为了节省空间,便在解压缩后立即删除该zip文件。先来介绍解压缩的方法:import zipfilefilename = '/home/username/work/1.zip'fz = zipfile.ZipFile(filename, '...
2017-07-20 09:20:53 7260 4
原创 python处理中文字符串
使用tensorflow做聊天机器人时,处理数据时遇到一个问题,需要统计常用汉字,这样就需要读取中文字符串中的单个汉字并进行统计。而适用于英文字符串的方法并不适用于中文字符串,因此需要通过下述的方法来读取中文字符串中的单个汉字字符。s = '今天天气非常好hhh'for i in s.decode('utf-8'): print i, #结果:# 今 天 天 气 非 常 好 ...
2017-07-07 14:46:39 3518 1
python利用百度地图API进行地理编码(将地名转换为经纬度)
2017-05-20
tensorflow----tf_upgrade.py
2017-03-14
python实现kaggle中的数字识别
2016-12-28
c++实现huffman哈夫曼编码
2016-10-27
快速排序+归并排序+c++
2016-10-27
道格拉斯普克算法的C++实现
2016-05-08
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人