python爬虫基础作业答案_python爬虫基础（一）基础信息

最新推荐文章于 2023-06-27 16:17:54 发布

weixin_39756445

最新推荐文章于 2023-06-27 16:17:54 发布

阅读量756

点赞数

文章标签： python爬虫基础作业答案

基础知识

request库：自动爬取HTML页面。自动网络请求提交

robots.txt：网络爬虫排除标准

Beautiful soup：解析HTML页面

RE：正则表达式提取重要信息

scrapy：网络爬虫框架

开发工具选择

文本工具类IDE

IDLE：python自带的常用入门工具

Sublime Text：√

集成工具类IDE

PyCharm：简单，集成度高，适合复杂功能 √

Anaconda：开源免费，科学计算

wing：收费的，具有丰富的调试功能，版本控制，版本同步，适合多人开发

爬虫规则

爬虫会对网站造成骚扰，也会在一定程度上侵犯隐私权益以及商业所有权，企业一般有两种方法来限制网络爬虫

来源审查：如果网站的所有者具有一定的技术能力，可以判断User-Agent来进行限制，检查HTTP协议头的User-Agent域，只响应浏览器或者有好的爬虫访问

发布公告：Robots协议，告知所有爬虫网站的爬取策略，要求爬虫遵守

Robots协议

Robots Exclusion Standard 网络爬虫排除标准

作用：网站告知网络爬虫哪些页面可以抓取，哪些不行

形式：在网站根目录下的robots.txt文件

基本语法：User-agent：* Disallow：/

# 京东的robots.txt www.jd.com/robots.txt

User-agent: *

Disallow: /?*

Disallow: /pop/*.html

Disallow: /pinpai/*.html?*

User-agent: EtaoSpider

Disallow: /

User-agent: HuihuiSpider

Disallow: /

User-agent: GwdangSpider

Disallow: /

User-agent: WochachaSpider

Disallow: /

使用

网络爬虫：自动或人工识别robot.txt，在进行内容爬取

约束性：建议但不是约束，可以违反，但是可能出事QAQ

参考资料

中国大学MOOC - Python网络爬虫与信息提取

weixin_39756445

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
python爬虫基础作业答案_python爬虫基础（一）基础信息

基础知识request库：自动爬取HTML页面。自动网络请求提交robots.txt：网络爬虫排除标准Beautiful soup：解析HTML页面RE：正则表达式提取重要信息scrapy：网络爬虫框架开发工具选择文本工具类IDEIDLE：python自带的常用入门工具Sublime Text：√集成工具类IDEPyCharm：简单，集成度高，适合复杂功能 √Anaconda：开源免费，科学计算w...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。