爬虫
yr_
达到成功最好的方法就是投入百分百的精力。
展开
-
python爬虫正则化常用符号锦集
1,元字符. 匹配除了换行符以外的任意字符\w 匹配字母或数字或下划线或汉字\s 匹配任意空白符\d 匹配数字\b 匹配单词的开始或结束^ 匹配字符串的开始$ 匹配字符串的结束2,反义代码\W 匹配除了字母或数字或下划线或汉字的字符\S 匹配任意不是空白符的子符\D 非数字\B 匹配不是的单词开头或结束的位置[^a] 匹配除了a以外的...原创 2019-07-15 21:59:32 · 401 阅读 · 0 评论 -
python爬虫urllib库基础(1)
1,urllib基础(1)爬取一个链接下来文件可以打开:首先创建一个文件夹:大概是像这个样子import urllibimport urllib.request #这两个import都是每次必要的,后面我就不重复码出来了#第一个参数是网址,第二个参数是文件路径\你自己自定义的名字.htmlurllib.request.urlretrieve("http://www.baidu....原创 2019-07-16 16:06:55 · 121 阅读 · 0 评论 -
爬虫异常处理
1,常见状态码及含义301 Moved Permanently : 重定向到新的URL,永久性302 Found : 重定向到临时的URL,非永久性304 Not Modified : 请求的资源未更新400 Bad Request : 非法请求401 Unauthorized : 请求未经授权403 Forbidden : 禁止访问404 Not Found : 禁止访问5...原创 2019-07-26 23:43:04 · 175 阅读 · 0 评论