爬虫
爬虫
GuessHat
骐骥一跃,不能十步,驽马十驾,功在不舍
展开
-
re模块使用
re模块 使用正则表达式需要用到re模块 1.提取 import re 语法: ret = re.findall(正则表达式,被提取的字符串) 返回的类型是列表 2.匹配 语法: ret=re.match(正则表达式,被匹配的字符串) 注: 如果匹配成功,返回<class 're.match‘对象’> 如果匹配不成功,返回None 3.替换 语法: ret=re.sub(正则表达式,替换成的字符串,被匹配的字符串) 在提取html提取正则表达式时,因为html中存在换行符\n,因此现将换原创 2020-05-19 15:09:59 · 250 阅读 · 0 评论 -
Urllib网页获取
Urllib 网页获取 1.导包 import urllib.request as ur 2.网页获取 # ret返回对象为httpresponse对象 ret = ur.urlopen('https://") # ret返回对象为二进制文件 ret = ur.urlopen('https://").read() 3.写入本地 with open ('Test.html','wb') as f: f.write(ret) ...原创 2020-05-22 14:57:06 · 210 阅读 · 0 评论 -
X-Path/lxml用法简介
X-Path介绍 X-Path 与正则表达式都是对网页数据的提取,正则表达式功能强大,但相对复杂,X-Path语法相对简单,可以通过谷歌插件安装x-path 1.X-Path谷歌插件下载地址 链接:https://pan.baidu.com/s/1sAYwo12CRN3x06d1HuKrfw 提取码:pgxk 2.X-Path ...原创 2020-05-22 14:48:16 · 725 阅读 · 0 评论 -
正则表达式
正则表达式原创 2020-05-19 14:36:57 · 171 阅读 · 1 评论