爬虫
文章平均质量分 69
qq_43503724
这个作者很懒,什么都没留下…
展开
-
正则表达式(regular express)
正则表达式(regular express):表示一段有规律的信息。使用正则表达式有如下步骤。(1)寻找规律。(2)使用正则符号表示规律。(3)提取信息。1.1 正则表达式的基本符号1.2在python中使用正则表达式(1)findall的函数原型为:re.findall(patten, string , flags=0)patten表示正则表达式,string表示原来的字符串...原创 2018-11-09 17:55:16 · 1492 阅读 · 0 评论 -
XPath语法
1.XPath 的介绍:XPath(XML Path)是一种查询语言,它能在XML(Extensible Markup Language, 可扩展标记语言)和HTML的树状结构中寻找结点。形象一点来说,XPath就是一种根据“地址”来“找人”的语言。用正则表达式来提取信息,经常会出现不明原因的无法提取想要内容的情况。最后即便是绞尽脑汁终于把想要的内容提取出来,却发现浪费太多时间。需要查找的内容...原创 2018-12-13 21:13:39 · 1149 阅读 · 0 评论 -
replace()和re.s()用法
replace()语法:replace(old, new, max)参数:old → 旧字符串,将被替换的子字符串。new →新字符串,用于替换old子字符串。max → 可省略,默认全部替换,可选字符串,替换次数不超过max次。>>>'jdkaka;ufahjka398jh'.replace('a','@')'jdk@k@;uf@hjk@398jh'>&...原创 2018-12-22 11:44:44 · 3693 阅读 · 0 评论 -
常见浏览器User-Agent大全
下面是工作中需要用到的常见浏览器User-Agent字符串的收集整理,不断更新中。OperaMozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36 OPR/26.0.1656.60Opera/8.0 (Windows NT 5.1;...转载 2018-12-11 18:24:40 · 1527 阅读 · 0 评论 -
Selenium
1.Selenium+Webdrive 常用的元素定位方式1假设网页源代码如下:<input type="text"name="wd" id="wuiggl" class="input_wd" maxlength="100"style="width:474px;"aut原创 2019-01-09 21:49:34 · 209 阅读 · 0 评论