爬虫排除标准相关方法和参数（2

最新推荐文章于 2023-03-15 09:45:18 发布

Hi Bomb!

最新推荐文章于 2023-03-15 09:45:18 发布

阅读量288

点赞数

分类专栏： python作业文章标签：爬虫 python 开发语言

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_34589842/article/details/126527536

版权

python作业专栏收录该内容

25 篇文章 2 订阅

订阅专栏

爬虫排除标准相关方法和参数（2）

对于网络爬虫的分类
有常见三种

. 第一类是爬取页面玩转网页的这种类型的网络爬虫规模都比较小，数据量比较小爬取的速度不敏感，大多数使用 Request库
第二类爬取网站爬取系列网站的这种类型的网络爬虫属于中等规模的
爬取的数据量也比较大他对爬取速度敏感，使用Scrapy类库
第三类就是全网爬取这种属于大规模全 Internet搜索引擎，爬取速度是他的关键，他们使用的类库都是定制开发的

网络爬虫引发的问题
Robots协议（爬虫协议、机器人协议) 的全称是网络爬虫排除标准
Robots Exclusion protocal 网站通过robots协议告诉搜索引擎哪些可以爬取

术语 user-agent :表示对于网络爬虫来源
Allow 允许 Disallow 不允许

构造一个BeautifulSoup类的参数有两个:

第一个是html/xml的文档内容，可以是本地文件，也可以是使用Requests库从url上获取的页面内容
第二个就是默认解析器 html.parser 他是Python内置的标准库也可以安装其他库

具体解析器的使用方法和条件如表

bs4

BS4的HTML解析器 BeautifulSoup(mk,‘html.parser’)
lxml 的HTML解析器 BeautifulSoup(mk,‘lxml’)
lxml 的xml解析器 Beautiful Soup(mk,‘xml’)
html5lib 的解析器 Beautiful Soup(mk,‘html5lib’)

基本元素

Tag 标签 <> </>
Name 标签名
Attributes 标签的属性，字典形式组织
NavigableString <></> 标签非属性字符串
Comment 标签内字符串的注释部分，一种特殊的Comment类型

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
爬虫排除标准相关方法和参数（2

爬虫
复制链接

扫一扫

专栏目录

Hi Bomb!

CSDN认证博客专家 CSDN认证企业博客

码龄8年

107: 原创

3万+: 周排名

224万+: 总排名

6万+: 访问

: 等级

1146: 积分

29: 粉丝

24: 获赞

10: 评论

125: 收藏

私信

关注

热门文章

分类专栏

最新评论

考研王道强化阶段（二轮复习）“算法题”备考打卡表记录
m0_67221355: 求算法题打卡表
考研王道强化阶段（二轮复习）“算法题”备考打卡表记录
逻辑460: 博主算法题的打卡表能发个不
《错误集锦》：爬虫时遇到status_code为 412，怎么办
qq_51442816: 怎么感觉在哪里看到过这篇文章，一模一样啊
《错误集锦》：爬虫时遇到status_code为 412，怎么办
yvhcel: 2、用了你这个方法二selenium这段代码（包括我自己弄的selenium代码），打开的浏览器一直显示空白窗口，浏览器地址栏有显示正确地址。 [code=python] import time from selenium import webdriver def getDriver(): options = webdriver.ChromeOptions() options.add_argument("--disable-extensions") # 你的代码 return driver if __name__ == '__main__': url = 'https://ec.chng.com.cn/ecmall/more.do?type=103' driver = getDriver() driver.get(url) time.sleep(5) print(f'当前页面title：{driver.title}') print(f'当前页内容：{str(driver.page_source)}') driver.close() driver.quit() [/code]
《错误集锦》：爬虫时遇到status_code为 412，怎么办
yvhcel: 你好，我也有1个招标网遇问题，能帮忙看看吗（https://ec.chng.com.cn/ecmall/more.do?type=103）： 1、手动打开网站复制cookie到请求头才能用requests请求到内容。但cookie有效期很短！！！ [code=python] import requests def get_zb_info(url,header,pama): response = requests.get(url=url, headers=header, params=pama) response.encoding = 'utf-8' wb_data = response.text print('抓取到以下内容：', wb_data) # 开始数据解析。。。 if __name__ == '__main__': url = 'https://ec.chng.com.cn/ecmall/more.do' header = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/123.0.0.0 Safari/537.36', 'Cookie': 'S6J51OuUjLieO=5AjWEiOna9Nm3YKgPv7rcuukAiPK。。。。', # Cookie的值是在真实浏览器访问“https://ec.chng.com.cn/ecmall/more.do?type=103”，然后按F12，从请求头里复制的 # 粘贴到此后可正确抓取到招标信息，但仅短暂有效。 } pama = { 'type': 103 } get_zb_info(url, header, pama) [/code]

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。