python网络爬虫(基础)
requests库
通用框架
BeautifulSoup库
HTML的遍历
信息标记
信息提取的一般方法
实例:
1.京东商品页面的爬取
2.亚马逊商品页面的爬取
3.百度/360搜索关键词提交
4.网络图片的爬取和存储
5.IP地址归属地的自动查询
6.“中国大学排名定向爬虫”实例
requests库
requests.request() 构造一个请求,支撑一下各方法的基础方法
requests.get() 获取HTML网页的主要方法,对应于HTTP的GET(常用)
requests.head() 获得HTML网页头信息的方法,对应于HTTP的HEAD
requests.post() 向HTML网页提交POST请求的方法,对应于HTTP的POST
requests.put() 向HTML网页提交PUT请求的方法,对应于HTTP的PUT
requests.patch() 向HTML网页提交局部修改请求,对应于HTTP的PATCH
requests.delete() 向HTML网页提交删除请求,对应于HTTP的DELETE
Respose对象的属性
r.status_code HTTP请求的返回状态,200表示连接成功,404表示失败
r.txt HTTP响应内容的字符串形式,即,url对应的页面内容
r.encoding 从HTTP header 中猜测的响应内容编码方式
r.apparent_encoding 从内容中分析的响应内容的编码方式(备选编码方式)
r.content HTTP响应内容的二进制形式
通用框架:
import requests
def getHTMLText(url):
try:
r = requests.get(url ,timeout = 30)
r.raise_for_status() #如果状态不是200,引发HTTPError异常
r.encoding = r.apparent_encoding #转化为utf-8
return r.text
except:
return "产生异常"
if __name__ == "__main__":
url = "http://www.baidu.com"
print(getHTMLText(url))
实例:
1.京东商品页面的爬取
首先获取网页连接
https://krisborg.jd.com/

import requests
url = "https://krisborg.jd.com/"
try:
r = requests.get(url)
r.raise_for_status()
r.encoding = r.apparent_encoding
print(r.text[:1000])
except:
print("爬取失败")
结果:
<!--jd默认浏览-->
<!DOCTYPE html>
<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
<meta http-equiv="X-UA-Compatible" content="IE=edge,chrome=1">
<!--JA统计-->
<script>var jdpts=new Object();jdpts._st=new Date().getTime();</script>
<meta content="克里斯·博格旗舰店,提供克里斯·博格旗舰店各类正品商品的报价、促销、评论、导购、图片等信息,欢迎您再次光顾克里斯·博格旗舰店" name="description">
<meta content="克里斯·博格旗舰店、,服饰内衣、京东" name="keywords">
<title>
克里斯·博格旗舰店 - 京东
</title>
<link rel="icon" href="//www.jd.com/favicon.ico" mce_href="//www.jd.com/favicon.ico" type="image/x-icon">
<!-- LESS -->
<!-- 新布局样式-->
<link rel="stylesheet" href="//static.360buyimg.com/static-shop-sale-p/libs/normalize-css/normalize.css">
<link rel="stylesheet" href="//static.360buyimg.com/static-shop-sale-p/css/common/layout.css">
<!-- 头部公用 -->
<link rel="stylesheet" type="text/css" href="//static.360buyimg.com/static-shop-sale-p/css/prev-versi

本文介绍Python网络爬虫基础,涵盖requests库和BeautifulSoup库的使用。详细讲解了Respose对象属性、HTML遍历方法、信息标记格式及信息提取方法。还给出多个实例,如京东、亚马逊商品页面爬取,网络图片存储,IP地址归属地查询,以及中国大学排名定向爬虫。
最低0.47元/天 解锁文章
&spm=1001.2101.3001.5002&articleId=95545395&d=1&t=3&u=07303e9b7eec41c28652e68b803b1dd6)
5033

被折叠的 条评论
为什么被折叠?



