python-网络爬虫

最新推荐文章于 2020-11-28 20:40:26 发布

axin337

最新推荐文章于 2020-11-28 20:40:26 发布

阅读量157

点赞数

分类专栏： Python学习文章标签：网络爬虫 requests

本文链接：https://blog.csdn.net/axin337/article/details/86235720

版权

3 篇文章 0 订阅

订阅专栏

摘至《小象学院-每天30分钟学Python-梁斌》

1、网络爬虫：自动抓取互联网信息的程序；利用互联网数据进行分析、开发产品

步骤：①通过网络链接获取网页内容；②对获得的网页内容进行处理

requests模块：是一个简洁且简单的处理HTTP请求的工具，包括URL获取，HTTP会话，Cookie记录等

requests网页请求：

get()含义：对应HTTP的GET方式

post()含义：对应HTTP的POST方式，用于传递用户数据

requests对象属性：

status_code含义：HTTP请求的返回状态，200表示连接成功，400表示失败；

text含义：HTTP相应内容的字符串形式，即url对应的页面内容。

更多参考：http://docs.python-requests.org/

2、高效地解析和处理HTML，beautifulsoup4

①结构化解析；②DOM（Document Object Model），树形结构

pip install beautifulsoup4

import bs4

步骤：①创建BeautifulSoup对象；②查询节点：find——找到第一个满足条件的节点；find_all——找到所有满足条件的节点

#创建BeautifulSoup对象
bs = BeautifulSoup(
    url,
    html_parser,    #指定解析器
    enoding    #指定编码格式（确保和网页编码格式一致）
)

查找节点：

可按节点类型、属性或内容访问

可按类型查找节点：bs.find_all('a')

按属性查找节点：

bs.find_all('a',href='a.html')

bs.find_all('a',href='a.html',string='next page')

bs.find_all('a',class_='a_link')注意：是class_

或者bs.find_all('a',{'class':'a_link'})

关注

专栏目录