2017年07月_Marvin Ming

11月 10月 09月 08月 07月 05月 04月 03月

原创 Python爬虫——多线程+协程threading+gevent

上一篇博客中我介绍了如何将爬虫改造为多进程爬虫，但是这种方法对爬虫效率的提升不是非常明显，而且占用电脑cpu较高，不是非常适用于爬虫。这篇博客中，我将介绍在爬虫中广泛运用的多线程+协程的解决方案，亲测可提高效率至少十倍以上。本文既然提到了线程和协程，我觉得有必要在此对进程、线程、协程做一个简单的对比，了解这三个程之间的区别。以下摘自这篇文章：http://www.cnblogs.c...

2017-07-30 13:37:56 10342 3

原创 Python爬虫——多进程multiprocessing

其实多进程相对来说不是特别适合用来做爬虫，因为多进程比较适用于计算密集型，而爬虫是IO密集型，因此多进程爬虫对速度的提升不是特别明显，但是将爬虫改为多进程比较简单，只需简单的几行代码即可搞定，所以在修改我的爬虫提升效率时，我最先实现的是多进程爬虫。（然而速度真心还是慢，我多线程+协程的程序跑的晚，却早已经结束工作了，多进程的还在苦战…）下面我通过实例来进行介绍。我爬取的数据是外文数...

2017-07-30 10:57:59 6556

原创 python下解压缩zip文件并删除文件

利用python下载数据，下载下来的数据为zip格式，因为有上千个这样的文件，因此便直接在爬虫程序里加入了解压缩zip文件的内容，并且因为数据量较大，为了节省空间，便在解压缩后立即删除该zip文件。先来介绍解压缩的方法：import zipfilefilename = '/home/username/work/1.zip'fz = zipfile.ZipFile(filename, '...

2017-07-20 09:20:53 7260 4

原创 python处理中文字符串

使用tensorflow做聊天机器人时，处理数据时遇到一个问题，需要统计常用汉字，这样就需要读取中文字符串中的单个汉字并进行统计。而适用于英文字符串的方法并不适用于中文字符串，因此需要通过下述的方法来读取中文字符串中的单个汉字字符。s = '今天天气非常好hhh'for i in s.decode('utf-8'): print i, #结果：# 今天天气非常好 ...

2017-07-07 14:46:39 3518 1

openlayer使用方位坐标系显示北极地区

openlayer使用方位坐标系显示北极地区地图 openlayer使用方位坐标系显示北极地区地图

2017-10-11

谷歌GDELT数据下载

代码有注释，数据说明看我博客。没分的可以直接去我博客中复制。代码有注释，数据说明看我博客。

2017-09-22

python利用百度地图API进行地理编码（将地名转换为经纬度）

介绍了如何在百度地图API申请密钥，然后在Python中调用API接口将自有数据中的地名转换为经纬度坐标。具体介绍可参照我的博客。

2017-05-20

tensorflow实现AlexNet训练mnist数据

tensorflow实现AlexNet训练mnist数据python代码

2017-05-07

tensorflow----tf_upgrade.py

在github下载的tf_upgrade.py在升级代码时会报错（本人系统是win10 64位，安装的是tensorflow1.0），对源代码520行进行修改后可以输出结果，但是输出后的文件在win10下直接运行会报错，将文件里的内容复制到新建的py文件中即可运行。

2017-03-14

python实现kaggle中的数字识别

python语言实现kaggle中的数字挖掘入门实例数字识别，附代码用到的数据与算法运行得到的结果，算法运行时间大概为4小时左右，主要是因为knn算法计算量较大。

2016-12-28

利用c++实现了Huffman编码，并对代码进行了注释，保证可读性。 {4,2,13,3,7,10,8,23,22,35,52,31} 下面是编码结果：第1个数的huffman编码是：00000 第2个数的huffman编码是：000010 第3个数的huffman编码是：0110 第4个数的huffman编码是：000011 第5个数的huffman编码是：01110 第6个数的huffman编码是：0001 第7个数的huffman编码是：01111 第8个数的huffman编码是：010 第9个数的huffman编码是：001 第10个数的huffman编码是：111 第11个数的huffman编码是：10 第12个数的huffman编码是：110

2016-10-27

快速排序+归并排序+c++

计算机算法课程的作业，用c++实现了归并排序和快速排序，并比较了两种算法的速度。测试数据为随机生成，可设置为10万、100万、1000万大小的数组。在代码中提供了详细的注释，在容易出错的地方进行了解释。下面是得到的输出结果。 the array num is :1000000 The mergesort run time is:15931ms! The quicksort run time is:234ms! the array num is :10000000 The mergesort run time is:15756ms! The quicksort run time is:2527ms!

2016-10-27

道格拉斯普克算法的C++实现

打开txt文件，读取其中的坐标数据，并利用DP算法进行简化。其中，txt文件是由shp文件转化而来，有不同的线对象，每个线对象有各自的很多坐标点，简化时是根据每个线对象进行简化，输出的数据与原数据格式相同，可转化回shp数据进行显示。shp、txt格式之间相互转换的工具在CSDN上面有，用户可另行下载，亲测可以用，程序运行所需的相关数据已一并打包。有任何问题欢迎留言。

2016-05-08

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

明月清風