自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

明月清風

自強弘毅,求是拓新

  • 博客(4)
  • 资源 (9)
  • 收藏
  • 关注

原创 Python爬虫——多线程+协程threading+gevent

上一篇博客中我介绍了如何将爬虫改造为多进程爬虫,但是这种方法对爬虫效率的提升不是非常明显,而且占用电脑cpu较高,不是非常适用于爬虫。这篇博客中,我将介绍在爬虫中广泛运用的多线程+协程的解决方案,亲测可提高效率至少十倍以上。 本文既然提到了线程和协程,我觉得有必要在此对进程、线程、协程做一个简单的对比,了解这三个程之间的区别。 以下摘自这篇文章:http://www.cnblogs.c...

2017-07-30 13:37:56 10342 3

原创 Python爬虫——多进程multiprocessing

其实多进程相对来说不是特别适合用来做爬虫,因为多进程比较适用于计算密集型,而爬虫是IO密集型,因此多进程爬虫对速度的提升不是特别明显,但是将爬虫改为多进程比较简单,只需简单的几行代码即可搞定,所以在修改我的爬虫提升效率时,我最先实现的是多进程爬虫。(然而速度真心还是慢,我多线程+协程的程序跑的晚,却早已经结束工作了,多进程的还在苦战…) 下面我通过实例来进行介绍。 我爬取的数据是外文数...

2017-07-30 10:57:59 6556

原创 python下解压缩zip文件并删除文件

利用python下载数据,下载下来的数据为zip格式,因为有上千个这样的文件,因此便直接在爬虫程序里加入了解压缩zip文件的内容,并且因为数据量较大,为了节省空间,便在解压缩后立即删除该zip文件。先来介绍解压缩的方法:import zipfilefilename = '/home/username/work/1.zip'fz = zipfile.ZipFile(filename, '...

2017-07-20 09:20:53 7260 4

原创 python处理中文字符串

使用tensorflow做聊天机器人时,处理数据时遇到一个问题,需要统计常用汉字,这样就需要读取中文字符串中的单个汉字并进行统计。而适用于英文字符串的方法并不适用于中文字符串,因此需要通过下述的方法来读取中文字符串中的单个汉字字符。s = '今天天气非常好hhh'for i in s.decode('utf-8'): print i, #结果:# 今 天 天 气 非 常 好 ...

2017-07-07 14:46:39 3518 1

openlayer使用方位坐标系显示北极地区

openlayer使用方位坐标系显示北极地区地图 openlayer使用方位坐标系显示北极地区地图

2017-10-11

谷歌GDELT数据下载

代码有注释,数据说明看我博客。没分的可以直接去我博客中复制。代码有注释,数据说明看我博客。

2017-09-22

python利用百度地图API进行地理编码(将地名转换为经纬度)

介绍了如何在百度地图API申请密钥,然后在Python中调用API接口将自有数据中的地名转换为经纬度坐标。具体介绍可参照我的博客。

2017-05-20

tensorflow实现AlexNet训练mnist数据

tensorflow实现AlexNet训练mnist数据python代码

2017-05-07

tensorflow----tf_upgrade.py

在github下载的tf_upgrade.py在升级代码时会报错(本人系统是win10 64位,安装的是tensorflow1.0),对源代码520行进行修改后可以输出结果,但是输出后的文件在win10下直接运行会报错,将文件里的内容复制到新建的py文件中即可运行。

2017-03-14

python实现kaggle中的数字识别

python语言实现kaggle中的数字挖掘入门实例数字识别,附代码用到的数据与算法运行得到的结果,算法运行时间大概为4小时左右,主要是因为knn算法计算量较大。

2016-12-28

c++实现huffman哈夫曼编码

利用c++实现了Huffman编码,并对代码进行了注释,保证可读性。 {4,2,13,3,7,10,8,23,22,35,52,31} 下面是编码结果: 第1个数的huffman编码是:00000 第2个数的huffman编码是:000010 第3个数的huffman编码是:0110 第4个数的huffman编码是:000011 第5个数的huffman编码是:01110 第6个数的huffman编码是:0001 第7个数的huffman编码是:01111 第8个数的huffman编码是:010 第9个数的huffman编码是:001 第10个数的huffman编码是:111 第11个数的huffman编码是:10 第12个数的huffman编码是:110

2016-10-27

快速排序+归并排序+c++

计算机算法课程的作业,用c++实现了归并排序和快速排序,并比较了两种算法的速度。测试数据为随机生成,可设置为10万、100万、1000万大小的数组。在代码中提供了详细的注释,在容易出错的地方进行了解释。下面是得到的输出结果。 the array num is :1000000 The mergesort run time is:15931ms! The quicksort run time is:234ms! the array num is :10000000 The mergesort run time is:15756ms! The quicksort run time is:2527ms!

2016-10-27

道格拉斯普克算法的C++实现

打开txt文件,读取其中的坐标数据,并利用DP算法进行简化。其中,txt文件是由shp文件转化而来,有不同的线对象,每个线对象有各自的很多坐标点,简化时是根据每个线对象进行简化,输出的数据与原数据格式相同,可转化回shp数据进行显示。shp、txt格式之间相互转换的工具在CSDN上面有,用户可另行下载,亲测可以用,程序运行所需的相关数据已一并打包。有任何问题欢迎留言。

2016-05-08

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除