Python爬虫学习笔记
文章平均质量分 75
qq_51102350
这个作者很懒,什么都没留下…
展开
-
Python爬虫:抓取单个图片/多个图片
抓取单个图片:#pics.py"""this is for catching pictures"""import requestsimport refrom bs4 import BeautifulSoupdef catch_onepicture(url,headers): response = requests.get(url=url,headers=headers) html = response.text soup = BeautifulSoup(html,'l原创 2021-05-13 22:43:00 · 394 阅读 · 0 评论 -
Python爬虫学习笔记.Beautiful Soup库的使用
Beautiful Soup一,概述二,解析器三,基本使用四,节点选择器五,方法选择器六,CSS选择器一,概述Python的一个HTML或XML的解析库,可用其方便的从网页中提取数据Beautiful Soup自动将输入文档转换为Unicode编码,输出文档转换为UTF-8编码二,解析器解析器使用方法Python标准库BeautifulSoup(markup,‘html.parser’)lxml HTML 解析器BeautifulSoup(markup,‘lxml’)原创 2021-05-01 20:07:22 · 255 阅读 · 0 评论 -
Python爬虫学习笔记.正则表达式
正则表达式一,正则表达式介绍Ⅰ,一般字符Ⅱ,预定义字符集Ⅲ,数量词Ⅳ,边界匹配二,re库的介绍二级目录三级目录一,正则表达式介绍概述:正则表达式是有自己特定语法结构的处理字符串的工具。Ⅰ,一般字符字符含义.匹配任意单个字符(不包括换行符\n)\转义字符[…](对应字符集中任意字符).:匹配任意单个字符,如a.c可以匹配的结果为abc,avc等。\:转义字符,如\n[…]:在括号中任选一个,如a[bcd],匹配的结果为ab,ac,ad。Ⅱ,预定义字符集原创 2021-04-26 23:46:39 · 393 阅读 · 0 评论 -
python爬虫学习笔记.requests库的使用
这里写目录标题一级目录二级目录三级目录一级目录二级目录三级目录一,基本用法Ⅰ,GET请求1,get()方法用于构建GET请求参数:requests.get(url,params,**kwargs)params:用于添加额外的参数**kwargs:12个控制访问的参数,如headers返回的类型:requests.models.Response对象*属性:status_code:状态码text:HTTP响应内容的字符串形式content:HTTP响应内容的二进制形式coo原创 2021-04-26 15:16:24 · 211 阅读 · 0 评论 -
Python爬虫:requests.codes状态码及相应查询条件
#信息性状态码100:('continue',),101:('switching_protocols',),102:('processing',),103:('checkpoint',),122:('uri too_long,'request_uri_too_long'),#成功状态码200:(ok",‘okay','allok',‘all_okay','all_good','\\o/','√),201:('created',),202:(accepted',),203:('non aut原创 2021-04-22 22:51:05 · 1553 阅读 · 0 评论 -
python爬虫学习笔记.urllib的使用
一,urllib四大模块1,request:基本的HTTP请求模块,可以用来模拟发送请求。2,error:异常处理模块。3,parse:工具模块,提供URL处理方法。4,robotparse:识别网站的robot.txt文件,判断该网站是否可以爬。二,...原创 2021-04-22 17:13:11 · 402 阅读 · 1 评论