2017年08月_ezLeo

11月 10月 09月 08月 07月 04月

原创 python多线程爬虫学习--urllib的使用

urllib是访问网址的利器。通过几个函数就可以轻松获取请求网页的状态，网页的内容等信息具体函数如下：urlopen(url)read()close()实例：import urllibpage=urlopen("http://blog.csdn.net/myiloveuuu/article/details/77411771")html=page.read()pa

2017-08-21 23:27:13 445

原创 python多线程爬虫学习--Queue

Queue是python多线程安全的队列实现，封装了数据结构中的队列，保证了线程之间使用队列同步数据不会出错。也就是说使用Queue就不用使用锁去同步数据。Queue默认构造的大小是无限的，也可以在初始化时指定队列大小:Queue q(10)Queue的使用函数：get():获取队列头部元素，并且把队列中该元素弹出put(元素):插入元素到队列尾部qsize()

2017-08-19 14:18:28 821

原创 python多线程爬虫学习--去除html的标签

import reimport urllibpage = urllib.urlopen("http://www.baidu.com")html = page.read()pattern = re.compile(r']+>', re.S)result = pattern.sub('', html)print resultre.compile返回的是一个正则的表达的

2017-08-16 00:29:16 4492

转载 python多线程爬虫学习--去除字符串中间空格

python去除字符串中间空格的方法1、使用字符串函数replace>>> a = 'hello world'>>> a.replace(' ', '')'helloworld'12341234看上这种方法真的是很笨。2、使用字符串函数split>>> a = ''.join(a.split())>>> print(a)helloworld1234123

2017-08-16 00:07:12 3208

原创 "win7便笺元数据损坏，便笺已将其恢复为默认值"如何修复

当你遇到这个问题时，说明你了解了一个非常简洁实用的工具，这个stickynote确实好用，妈妈再也不用担心我忘记下面需要干啥啦。下面来讲一下如何处理这个问题：百度上面有两种说法：1.删除注册信息，我尝试失败。2.注册.dll动态库到注册表中，这个是可以的，在其中会遇到一个坑，我下面也会说明。注册.dll方案：便笺:InkObj.dll 和

2017-08-13 13:38:28 25638 4

转载 git如何更新fork的repository

Fork一个别人的repository，做了一些改动，想提交pull request的时候，发现原先别人的repository已经又有了一些更新了，这个时候想使得自己fork出的repository也得到这些更新，即和原repository同步，该怎么做呢？这个问题应该被问烂了，stackoverflow上也有解答，基本上是指向的GitHub上的官方文档。最主要的是这2篇：https://he

2017-08-05 12:05:31 1205

空空如也

c语言栈的平衡符号的问题

2015-06-20

TA创建的收藏夹 TA关注的收藏夹

TA关注的人