基于之前的脚本,添加了小说名关键字搜索功能。可匹配8wenku内所有的轻小说。主要问题!!!暂不能识别图片,遇到则报错,暂使用关键字暴力跳过(导致匹配内容不全)其次(暂不能按卷保存;日后改进;)
追加:捕获主体内容内的 'img src =' 即可识别出图片 跳过即可;对于一些gbk编码的字符,在cmd下,使用print函数时会报错。
对于正则表达式,一点个人的收获:
- .*为贪婪匹配,直接匹配 . 前子表达式相符合的最长内容(例: =.*则匹配到最后一个'='之前的所有内容即最长);
- .*?为非贪婪匹配,同样匹配 . 前子表达式,只是尽可能匹配最少的内容(例: =.*?则匹配到第一个'='之前的所有内容);
- (.*?)增加()即捕获非贪婪匹配的匹配内容;