爬虫相关
文章平均质量分 82
U侠学子_博约天下
博观百家金玉言,约取点滴蔽自珍。
展开
-
正则表达式基础知识
转自: http://www.runoob.com/regexp/regexp-syntax.html正则表达式 - 语法正则表达式(regular expression)描述了一种字符串匹配的模式,可以用来检查一个串是否含有某种子串、将匹配的子串做替换或者从某个串中取出符合某个条件的子串等。列目录时, dir *.txt或ls *.txt中的*.txt就不是一个正转载 2016-09-01 12:15:05 · 450 阅读 · 0 评论 -
简述 URL 并分别说明各部分的含义
转自:http://blog.csdn.net/dzhj11/article/details/9194999统一资源定位符(URL)是用于完整地描述Internet上网页和其他资源的地址的一种标识方法。 Internet上的每一个网页都具有一个唯一的名称标识,通常称之为URL地址,这种地址可以是本地磁盘,也可以是局域网上的某一台计算机,更多的是Internet上的站点。简单地说,URL就转载 2016-09-01 04:45:06 · 30236 阅读 · 0 评论 -
百度搜索URL参数含义
原创文章,版权归andxu所有,如转载请征求本人同意,并一定保存本页链接。—————————————————————————————————————————————————— 在做搜索时候,关注搜索引擎的URL格式是一个很重要的问题,以百度为例,整理一下常用的格式和技术: Eg.几个百度搜索的URLhttp://www.baidu.com/s?lm=转载 2016-09-01 04:41:39 · 8435 阅读 · 0 评论 -
Python Re模块基础知识
转自: http://www.cnblogs.com/huxi/archive/2010/07/04/1771073.htmlre模块2.1. 开始使用rePython通过re模块提供对正则表达式的支持。使用re的一般步骤是先将正则表达式的字符串形式编译为Pattern实例,然后使用Pattern实例处理文本并获得匹配结果(一个Match实例),最后使用Match实转载 2016-09-01 12:43:33 · 629 阅读 · 0 评论 -
python的urllib, urllib2库基本知识
转自: http://blog.csdn.net/tianzhu123/article/details/7193408urllib2是python的一个获取url(Uniform ResourceLocators,统一资源定址器)的模块。它用urlopen函数的形式提供了一个非常简洁的接口。这使得用各种各样的协议获取url成为可能。它同时也提供了一个稍微复杂的接口来处理常见的状况-转载 2016-09-01 13:38:20 · 404 阅读 · 0 评论