- 博客(6)
- 问答 (1)
- 收藏
- 关注
原创 python多线程爬虫学习--urllib的使用
urllib是访问网址的利器。通过几个函数就可以轻松获取请求网页的状态,网页的内容等信息具体函数如下:urlopen(url)read()close()实例:import urllibpage=urlopen("http://blog.csdn.net/myiloveuuu/article/details/77411771")html=page.read()pa
2017-08-21 23:27:13 445
原创 python多线程爬虫学习--Queue
Queue是python多线程安全的队列实现,封装了数据结构中的队列,保证了线程之间使用队列同步数据不会出错。也就是说使用Queue就不用使用锁去同步数据。Queue默认构造的大小是无限的,也可以在初始化时指定队列大小:Queue q(10)Queue的使用函数:get():获取队列头部元素,并且把队列中该元素弹出put(元素):插入元素到队列尾部qsize()
2017-08-19 14:18:28 821
原创 python多线程爬虫学习--去除html的标签
import reimport urllibpage = urllib.urlopen("http://www.baidu.com")html = page.read()pattern = re.compile(r']+>', re.S)result = pattern.sub('', html)print resultre.compile返回的是一个正则的表达的
2017-08-16 00:29:16 4492
转载 python多线程爬虫学习--去除字符串中间空格
python去除字符串中间空格的方法1、使用字符串函数replace>>> a = 'hello world'>>> a.replace(' ', '')'helloworld'12341234看上这种方法真的是很笨。2、使用字符串函数split>>> a = ''.join(a.split())>>> print(a)helloworld1234123
2017-08-16 00:07:12 3208
原创 "win7便笺元数据损坏,便笺已将其恢复为默认值"如何修复
当你遇到这个问题时,说明你了解了一个非常简洁实用的工具,这个stickynote确实好用,妈妈再也不用担心我忘记下面需要干啥啦。下面来讲一下如何处理这个问题:百度上面有两种说法:1.删除注册信息,我尝试失败。2.注册.dll动态库到注册表中,这个是可以的,在其中会遇到一个坑,我下面也会说明。注册.dll方案:便笺:InkObj.dll 和
2017-08-13 13:38:28 25638 4
转载 git如何更新fork的repository
Fork一个别人的repository,做了一些改动,想提交pull request的时候,发现原先别人的repository已经又有了一些更新了,这个时候想使得自己fork出的repository也得到这些更新,即和原repository同步,该怎么做呢?这个问题应该被问烂了,stackoverflow上也有解答,基本上是指向的GitHub上的官方文档。最主要的是这2篇:https://he
2017-08-05 12:05:31 1205
空空如也
c语言栈的平衡符号的问题
2015-06-20
TA创建的收藏夹 TA关注的收藏夹
TA关注的人