![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
网络爬虫
Scrapy,Requests,Re,Xpath
HKNMTT1994
哈库呐玛塔塔
展开
-
《爬虫笔记》— 图形验证码处理
#图形验证码通常处理方式from PIL import Imageimport tesserocrimage = Image.open(img_path).convert('L')#image.show()threshold = 80 #设置阈值table = []for i in range(256): if i < threshold: tabl...原创 2020-03-11 10:04:44 · 121 阅读 · 0 评论 -
《正则表达式笔记》 1 — 基本认识
常用操作符. #表示任何单个字符[] #字符集,对单个字符给出取值范围 [abc]表示a、b、c,[a-z]表示a到z的单个字符[^] #非字符集,对单个字符给出排除范围 [^abc]表示非a或b或c的单个字符* #前一个字符0次或无限次扩展 abc*表示ab、abc、abcc..等+ #前一个字符1次或无限次扩展 abc+表示abc、abcc..等? #前一个字符0次或1次扩展 ab...原创 2020-03-11 06:31:26 · 83 阅读 · 0 评论 -
《Python环境调用JS》 — 基本方法
pip install js2pyimport js2py#调用js代码context = js2py.EvalJs()with open('scripts.js','r',encoding='utf-8') as f: #scripts.js为保存好的js代码文件 context.execute(f.read()) #注意f.read()后,指针指向文件末尾,可以搭配f.s...原创 2020-03-10 12:40:59 · 446 阅读 · 0 评论 -
《Re笔记》 1 — 基本认识
最小匹配操作符#多加一个 ?*? #前一个字符0次或无限次扩展,最小匹配+? #前一个字符1次或无限次扩展,最小匹配?? #前一个字符0次或1次扩展,最小匹配{m,n}? #扩展前一个字符m至n次(含n),最小匹配函数re.search(pattern,string,flags=0) #在一个字符串中搜索匹配正则表达式的第一个位置,返回match对象#flags包括以下: ...原创 2020-03-11 06:28:10 · 141 阅读 · 0 评论 -
《Xpath笔记》 1 — 基本认识
常用规则表达式描述nodename选取此节点所有子节点/从当前节点直接选取所有子节点//从当前节点直接选取子孙节点.选取当前节点. .选取当前节点父节点@选取属性contains()属性多值匹配text()获取文本Python中的Xpathfrom lxml import etreehtml = etree...原创 2020-03-11 07:08:36 · 90 阅读 · 0 评论 -
《Scrapy笔记》 1 — 基本认识
笔记 《一》Scrapy是一个基于Twisted的异步处理框架。engine(已封装)控制所有模块之间的数据流 ,request、response、item根据条件触发事件downloader(已封装)接收request,返回responsescheduler(已封装)接收从engine传来的request,再根据engine需要返回requestspiders(对应...原创 2020-03-10 10:23:56 · 103 阅读 · 0 评论