我来点儿硬核的吧,实在不方便截图,但绝对干货。
我的快捷指令主要当爬虫用,代替电脑端Python和ios端Pythonista。
基本思路就是通过http watcher等软件获取cookie,然后在快捷指令里:
1,构建第一层url,获取要抓取的链接;
2,将链接增量存储至icloud中的下载链接库;
3,逐行读取下载链接库,比较“已完成库”确定是否下载过,抓取url内容并排版并存储至icloud,将本行添加至已完成库。
基本就是这个思路了,我还为此弄了几个模块;
比如等差数列模块:生成等差数列,输入方式三种:
①三项表格,首项、尾项、公差
②二项表格,首项、尾项,默认公差1
③文本输入,首项,尾项,(公差),半角逗号分隔。
比如列表相减模块:输入词典2项,text项为列表,rep项为文本文件名形如“1024.txt”,存放位置在icloud/shortcuts/replace/文件夹。输出列表。
下载url内容以后主要用一个语句匹配内容:(?<=匹配前缀)([\s\S]*?)(?=匹配后缀),例如
([\s\S]*?) 匹配字段。其中[\s\S]*?为匹配0个到任意多个字符(非贪婪模式,即最短匹配情况)。常用的还有[\u4e00-\u9fa5]匹配中文。正则表达式是爬虫的精髓,事半功倍。我用这个思路爬了n个网站论坛的网页、图片、压缩包、电影种子等,主要是不用开电脑…