爬虫
学习笔记
关关雎鸠儿
学而不思则罔,思而不学则die
展开
-
Requests库的安装
以管理员权限启动CMD;使用命令:“pip install requests”;原创 2019-09-24 17:48:24 · 698 阅读 · 0 评论 -
IP地址归属地的自动查询
import requestsurl='http://m.ip138.com/ip.asp?ip='r=requests.get(url+'202.204.80.112')print(r.status_code)import requestsurl='http://m.ip138.com/ip.asp?ip='r=requests.get(url+'202.204.80.112')...原创 2019-09-25 19:04:22 · 1139 阅读 · 4 评论 -
实例4:网络图片的爬取和存储
import requestspath='xiaozhan.jpg'url='https://gss0.bdstatic.com/94o3dSag_xI4khGkpoWK1HF6hhy/baike/s%3D500/sign=492a71febd1bb0518b24b328067bda77/58ee3d6d55fbb2fba34b25ce414a20a44723dc8e.jpg'r=reque...原创 2019-09-25 17:51:13 · 259 阅读 · 0 评论 -
实例3:百度360搜索关键词提交
百度的关键词接口:http://www.baidu.com/s?wd=keyword360的关键词接口:http://www.so.com/s?q=kewordimport requestskv={'wd':'Python'}r=requests.get('http://www.baidu.com/s',params=kv)print(r.status_code)print(r.r...原创 2019-09-25 17:23:50 · 649 阅读 · 0 评论 -
实例2:亚马逊商品页面爬取
import requestsr=requests.get('https://www.amazon.com/HP-Tri-color-Original-Cartridges-F6U61AN/dp/B00WR23VRI/ref=sr_1_1?fst=as%3Aoff&pf_rd_i=16225007011&pf_rd_m=ATVPDKIKX0DER&pf_rd_p=55c...原创 2019-09-25 17:03:00 · 953 阅读 · 0 评论 -
实例1:京东商品页面的爬取
import requestsr=requests.get('https://item.jd.com/100002795959.html')print(r.status_code)print(r.encoding)print(r.text)url='https://item.jd.com/100002795959.html'try: r=requests.get(url...原创 2019-09-25 16:35:34 · 943 阅读 · 1 评论 -
Requests库的get()方法
requests.get(url,Params,**kwars)针对上一次的代码进行分析:import requestsr=requests.get('http://www.baidu.com')print(r.status_code)r.encoding='utf-8'print(r.text)status_code:状态信息,返回200代表正常,404表示失败;text:H...原创 2019-09-25 15:45:58 · 2431 阅读 · 1 评论 -
Requests库的主要方法解析
带扩充原创 2019-09-25 15:45:27 · 163 阅读 · 0 评论 -
HTTP协议及Requests库的方法
URL格式:http://host[:post][path]Requests库的head()方法:import requestsr=requests.head('http://www.baidu.com')print(r.headers)print(r.text)Request库的post()方法import requestspayload={'key1':'value1',...原创 2019-09-24 22:59:42 · 154 阅读 · 0 评论 -
爬取网页的通用代码块框架
理解Requests库的连接异常ConnectionError:网络连接错误,如DNS查询失败、拒绝连接等。HTTPError:HTTP错误异常。URLRequired:URL缺失异常。TooManyRedirects:超过大量定向次数,产生重定向异常。ConnectTimeout:连接远程服务器超时异常。Timeout:请求URL超时,产生超时异常。import requests...原创 2019-09-24 22:40:19 · 182 阅读 · 0 评论 -
Beautiful Soup安装
小测:import requestsfrom bs4 import BeautifulSoupr=requests.get('https://python123.io/ws/demo.html')demo=r.textsoup=BeautifulSoup(demo,'html.parser')print(soup.prettify())原创 2019-09-25 20:14:38 · 78 阅读 · 0 评论