1 爬取京东某化妆品页面图片
1.1 源代码
1.2 解析
1.2.1 urllib库
运用urllib库中的request模块,它是最基本的HTTP请求模块,用来模拟发送请求。
(1) urlopen()函数
urlopen函数完成了最简单的网页的GET的请求抓取,其响应类型是HTTPResponse类型,HTTPResponse类型包含了read()、readinto()、getheader(name)、getheaders()响应的头部信息、fileno()等方法。
(2)request.Request()函数
request.Request()函数可以构建一个完整的请求,通过添加headers,可以模拟浏览器来获取数据。
(3request.urlretrieve()函数
request.urlretrieve()函数可以将URL表示的网络对象复制到本地文件。
1.2.2 BeautifulSoup
BeautifulSoup是python的一个库,最主要的功能是从网页抓取数据。
(1) find_all()函数
find_all()函数搜索当前tag的所有tag子节点,并判断是否符合过滤器的条件。
(2)find()函数
find()方法与find_all()方法类似,唯一的区别就是find_all()方法的返回结果是值包含一个元素的列表,而 find()方法直接返回结果。
2 爬取网易云音乐
2.1 源代码
2.2解析
2.2.1 etree模块
etree.HTML()可以用来解析字符串格式的HTML文档对象,将传进去的字符串转变成_Element对象;xpath()可以获取html源码中的内容。
2.2.2 requests库
requests.get() 获取HTML网页的主要方法,对应于HTTP的GET