摘至《小象学院-每天30分钟学Python-梁斌》
1、网络爬虫:自动抓取互联网信息的程序;利用互联网数据进行分析、开发产品
步骤:①通过网络链接获取网页内容;②对获得的网页内容进行处理
requests模块:是一个简洁且简单的处理HTTP请求的工具,包括URL获取,HTTP会话,Cookie记录等
requests网页请求:
get()含义:对应HTTP的GET方式
post()含义:对应HTTP的POST方式,用于传递用户数据
requests对象属性:
status_code含义:HTTP请求的返回状态,200表示连接成功,400表示失败;
text含义:HTTP相应内容的字符串形式,即url对应的页面内容。
更多参考:http://docs.python-requests.org/
2、高效地解析和处理HTML,beautifulsoup4
①结构化解析;②DOM(Document Object Model),树形结构
pip install beautifulsoup4
import bs4
步骤:①创建BeautifulSoup对象;②查询节点:find——找到第一个满足条件的节点;find_all——找到所有满足条件的节点
#创建BeautifulSoup对象
bs = BeautifulSoup(
url,
html_parser, #指定解析器
enoding #指定编码格式(确保和网页编码格式一致)
)
查找节点:
<a href='a.html'class='a_link'>next page</a'>
可按节点类型、属性或内容访问
可按类型查找节点:bs.find_all('a')
按属性查找节点:
bs.find_all('a',href='a.html')
bs.find_all('a',href='a.html',string='next page')
bs.find_all('a',class_='a_link')注意:是class_
或者bs.find_all('a',{'class':'a_link'})