爬虫
进击的码农菌
这个作者很懒,什么都没留下…
展开
-
Python爬虫学习笔记2
urllib 基础1)爬取到内存中注:ignore可以规避解码细节问题防止报错。2)爬取到本地3)浏览器伪装利用浏览器标识来伪装成浏览器来突破反爬4)用户代理池用多个浏览器标识进行伪装若想设置每爬N次换一次代理:例如每爬五次2.如何批量爬取(并翻页)...原创 2020-09-13 15:31:30 · 92 阅读 · 0 评论 -
Python爬虫学习笔记
Python爬虫学习笔记1. 爬虫是互联网信息的自动化采集程序2. 正则表达式1)全局匹配函数格式 re.compile(正则表达式) .findall(源字符串)特殊匹配\n 匹配换行符\t 匹配制表符\w 匹配字母,数字下划线\W 匹配除了字母,数字下划线\d 匹配十进制数字\D 匹配除十进制数字\s 匹配空白字符\S 匹配除了空白字符[ awda] 原子表,匹配表内任意一个[^awda] 原子表,匹配除了表内原创 2020-09-13 13:02:13 · 63 阅读 · 0 评论