Python爬虫
sabcasjkd
是只小猴子
展开
-
Python爬虫笔记1 | request库入门
第一节【例 1】>>> import requests>>> r = requests.get("http://www.baidu.com")>>> print(r.status_code) //返回状态码200 >>> type(r)<class 'requests.models.Respons...原创 2019-05-30 20:14:03 · 318 阅读 · 0 评论 -
Python爬虫笔记2 | request库入门(2)
[01 request]requests.request(method, url, **kwargs)method:请求方式‘GET’‘HEAD’‘POST’‘PUT’‘PATCH’‘delete’‘OPTIONS’**kwargs:控制访问的参数,均为可选项paramas:字典或字节序列,作为参数增加到url链接中...原创 2019-06-21 16:29:46 · 145 阅读 · 0 评论 -
Python爬虫笔记3 |对网络爬虫的限制
01 网络爬虫的尺寸Requests库----爬取网页,玩转网页Scrapy库----爬取网站,爬取系列网站定制开发----爬取全网02 网络爬虫的限制来源审查:判断User-Agent进行限制检查来访HTTP协议头的User-Agent域,只响应浏览器或友好爬虫的访问。发布公告:Robots协议告知所有爬虫网站的爬取策略,要求爬虫遵守。03 Robots协议...原创 2019-06-21 17:03:17 · 384 阅读 · 0 评论 -
Python爬虫笔记4 | 案例(1)
01 更改user-agent>>> import requests>>> r=requests.get("https://www.amazon.cn/dp/B06XCX5FLV?ref_=Oct_ETopRankingC_desktop_NA")>>> r.status_code200>>> r.request.h...原创 2019-06-21 19:03:59 · 213 阅读 · 0 评论 -
Python爬虫笔记5 | BeautifulSoup
BeautifulSoupfrom bs4 import BeautifulSoupsoup = BeautifulSoup("<html>data</html>", 'html.parser')soup2 = BeautifulSoup(open("D://demo.html"), 'html.parser')Beautiful Soup 的解析器...原创 2019-06-25 21:14:52 · 113 阅读 · 0 评论 -
Python爬虫笔记6 |信息标记与提取
3种信息标记XMLJSONYAML1. XML2. JSON有类型的键值对3. YAML无类型键值对原创 2019-07-13 09:36:49 · 337 阅读 · 1 评论