姜同学?-CSDN博客

原创阳仔学爬虫(4) Robots协议

Robots 协议Robots Rxclusion Standard : 网络爬虫排除标准。作用: 网站告知网络爬虫哪些页面可以抓取，哪些不行。形式：在网站根目录下的robots.txt文件。查看某网站的Robots协议方法：例子：京东的Robots协议：https://www.jd.com/robots.txt注释：User-agent：表示哪些爬虫。*：表示所有。Disallow：表示不允许爬虫访问资源的目录。/：表示根目录。如果一个网站不提供Robots协议，说明该网站允许

2020-08-10 11:13:37 594

原创阳仔学爬虫(3) Requests库request方法

requests.request(method,url,**kwargs)method : 请求方式，对应get/put/post等7种方法。url : 拟获取页面的url链接。** kwargs : 控制访问的参数，共13个。7种请求方式r = requests. request(‘GET’, url, **kwargs)r = requests. request(‘HEAD’, ...

2020-03-28 21:15:44 371

原创阳仔学爬虫(2) HTTP协议 Requests 的head、post、put方法

HTTP协议HTTP, Hypertext Transfer Protocol,超文本传输协议。HTTP是一个基于“请求与响应”模式的、无状态的应用层协议。HTTP协议采用URL作为定位网络资源的标识。URL格式 http://host [:port] [path]**host：**合法的Internet主机域名或IP地址。**port：**端口号，缺省端口默认为80。**path：...

2020-03-26 20:45:51 590

原创阳仔学爬虫(1) Requests 的get方法和两个对象

Requests库的7个主要方法requests. request(）构造一个请求,支撑以下各方法的基础方法requests. get()获取HTML网页的主要方法,对应于HTTP的GETrequests. head()获取HTML网页头信息的方法,对应于HTTP的HEADrequests. post()向HTML网页提交POST请求的方法,对应于HTTP的POSTrequest...

2020-03-26 20:45:21 520

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 阳仔学爬虫(4) Robots协议

原创 阳仔学爬虫(3) Requests库request方法

原创 阳仔学爬虫(2) HTTP协议 Requests 的head、post、put方法

原创 阳仔学爬虫(1) Requests 的get方法和两个对象

空空如也

空空如也

原创阳仔学爬虫(4) Robots协议

原创阳仔学爬虫(3) Requests库request方法

原创阳仔学爬虫(2) HTTP协议 Requests 的head、post、put方法

原创阳仔学爬虫(1) Requests 的get方法和两个对象