![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
yr_
达到成功最好的方法就是投入百分百的精力。
展开
-
python爬虫正则化常用符号锦集
1,元字符 . 匹配除了换行符以外的任意字符 \w 匹配字母或数字或下划线或汉字 \s 匹配任意空白符 \d 匹配数字 \b 匹配单词的开始或结束 ^ 匹配字符串的开始 $ 匹配字符串的结束 2,反义代码 \W 匹配除了字母或数字或下划线或汉字的字符 \S 匹配任意不是空白符的子符 \D 非数字 \B 匹配不是的单词开头或结束的位置 [^a] 匹配除了a以外的...原创 2019-07-15 21:59:32 · 432 阅读 · 0 评论 -
python爬虫urllib库基础(1)
1,urllib基础 (1)爬取一个链接下来文件可以打开: 首先创建一个文件夹: 大概是像这个样子 import urllib import urllib.request #这两个import都是每次必要的,后面我就不重复码出来了 #第一个参数是网址,第二个参数是文件路径\你自己自定义的名字.html urllib.request.urlretrieve("http://www.baidu....原创 2019-07-16 16:06:55 · 133 阅读 · 0 评论 -
爬虫异常处理
1,常见状态码及含义 301 Moved Permanently : 重定向到新的URL,永久性 302 Found : 重定向到临时的URL,非永久性 304 Not Modified : 请求的资源未更新 400 Bad Request : 非法请求 401 Unauthorized : 请求未经授权 403 Forbidden : 禁止访问 404 Not Found : 禁止访问 5...原创 2019-07-26 23:43:04 · 183 阅读 · 0 评论