1.基础爬虫
import request
#请求头信息
headers={'User-Agent':''}
#代码向服务器发送get请求,get是发送请求的方式,post
response=request.get(url='',headers=headers)
#将内容写入文件
with open('') as f:
f.write(response.content)
2.Xpath的基本使用
简介:Xpath是一门在XML文档中查找信息的语言,使用路径表达式来选取XML文档中的节点或者节点集,速度较快,是爬虫在网页定位中的较优选择,但很多网页前端代码混乱难以定位。
安装库:开始菜单输入cmd -> 打开命令框 ->输入 :
pip install lxml
文档:https://docs.microsoft.com/zh-cn/previous-versions/dotnet/netframework-2.0/ms256471(v%3dvs.80)
基础用法及实例:
#
'''
表达式 描述
nodename 选取此节点的所有子节点。
/ 从根节点选取。 或是元素和元素间的过渡。
// 从匹配选择的当前节点选择文档中的节点,而不考虑它们的位置。或是跨节点选取子节点
. 选取当前节点。
.. 选取当前节点的父节点。
@ 选取属性。
'''
# 导入模块
from lxml import etree
data_str = """
<div>
<ul>
<li class="item-0">
<a href="link1.html">
first item
</a>
</li>
<li class="item-1"><a href="link2.html">second item</a></li>
<li class="item-inactive"><a href="link3.html">third item</a></li>
<li class="item-1"><a href="link4.html">fourth item</a></li>
<li class="item-0"><a href="link5.html">fifth item</a>
</ul>
</div>
"""
html = etree.HTML(data_str)
# html.xpath('//div/ul/li[@class="item-0"]/a/text()')#找文本值
html.xpath('//div//li[@class="item-0"]/a/@href') # 属性值