python爬虫

努力成长的小白鸭

已于 2022-09-23 11:12:10 修改

阅读量288

点赞数

分类专栏： python 文章标签： python 爬虫开发语言

于 2022-09-23 10:31:52 首次发布

原文链接：https://zhuanlan.zhihu.com/p/77560712

版权

python 专栏收录该内容

9 篇文章 0 订阅

订阅专栏

爬取百度网页，最终获得百度的logo，保存在logo.png中
在这里插入图片描述

#python内置库urllib，该库有一个urlopen函数，可以根据url获取HTML文件
from urllib.request import urlopen
#python库BeautifulSoup为工具来解析上面已经获取的HTML。pip install bs4 BeautifulSoup会将HTML内容转换成结构化内容，你只要从结构化标签里面提取数据就OK了
from bs4 import BeautifulSoup as bf
from urllib.request import urlretrieve
#导入urlopen函数，发送请求获得html
html=urlopen("http://www.baidu.com")
obj=bf(html.read(),'html.parser')
#从标签head和title里面提取title
title=obj.head.title
print(title)
#获得HTML是字节，转换成字符串
html_text=bytes.decode(html.read())
#HTML里所有图片信息会在“img”标签里，所以我们通过findAll("img")就可以获取到所有图片的信息
#pic_info=obj.find_all('img')
#有百度首页logo的图片，该图片的class（元素类名）是index-logo-src

logo_pic_info=obj.find_all('img',class_="index-logo-src")
#图片的链接地址在src这个属性里，我们要获取图片链接地址
#提取logo的链接
logo_url="https:"+logo_pic_info[0]['src']
#打印链接
print(logo_url)
#使用urlretrieve下载图片
urlretrieve(logo_url,'logo.png')
#分别打印每个图片的消息
#for i in pic_info:
#    print(i)
#打印HTML的内容
#print(html_text)

爬取其他网页时可能存在的问题：
报错：爬虫报错： 'raise HTTPError(req.full_url, code, msg, hdrs, fp) ’ HTTPError

报错原因：网站存在反爬虫机制，爬虫未进行UA封装，拒绝了爬虫请求。

解决办法

在代码中添加

import urllib.request
openhead=urllib.request.build_opener()
openhead.addheaders = [("User-Agent", "Mozilla/5.0")]
urllib.request.install_opener(openhead)

努力成长的小白鸭

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python爬虫

【代码】python爬虫。
复制链接

扫一扫

专栏目录

努力成长的小白鸭 CSDN认证博客专家 CSDN认证企业博客

码龄4年

35: 原创

54万+: 周排名

6万+: 总排名

3万+: 访问

: 等级

475: 积分

21: 粉丝

26: 获赞

10: 评论

124: 收藏

私信

关注

热门文章

分类专栏

最新评论

计算机组成原理_计算机的运算方法
做而论道_CS: 由补码换算到十进制数，也是极其简单的事！你只需记住：【补码首位的权，是负数】。一般的八位二进制数，各个位的权是：　　128、64、32、16、8、4、2、1。如果是八位的补码，各个位的权则是：　－128、64、32、16、8、4、2、1。例如，有一个补码是：1110 0001，它代表的十进制就是：－128 + 64 + 32 + 1 = －31。如果，换另一个补码：0110 0001，它代表的十进制数是：0 + 64 + 32 + 1 = ＋97。仅仅使用【进制转换】，不就完事了嘛？哪里还需要 “原码反码取反加一” 啊！－－－－－－－－－－－－－－－－－－－所谓的 “补码”，根本就不是 “码”，它就是普通的数字。那么，所谓的：　机器数真值符号位01原码反码补码正数三码相同　负数取反加一符号位不变模同余符号位也参加运算 ... 这一大堆乱七八糟的概念，不都是垃圾嘛！舍弃进位这点小事，小学二年级，就可以理解吧？老外竟然能弄出那么大一堆概念！难道，他们都没上过小学？常说的：三个臭皮匠，顶个诸葛亮。这些计算机专家，就连臭皮匠都不如啊！我们的计算机老师，也不懂数学，只知道跟风。一天一天的乱讲，真是毁人不倦坑人不浅！
计算机组成原理_计算机的运算方法
做而论道_CS: +99、+255，都可以当负数，这与计算机没有关系。其原因是【你舍弃了进位】！ +99、+255，它们，都是数！它们，【都是正常的数字】！它们，并不是什么：　机器数符号位原码反码补码！计算机专家胡编乱造，蒙骗了无数人。比东北的老赵，还能忽悠！－－－－－－－－－－－－－－－－－－－－－八位二进制数，共有 256 个数值。可用其一半 (128 个) 来代表 (128 个) 负数。首先：255 (即 1111 1111)，可当－1 来用。同理：254 (即 1111 1110)，可当－2 来用。其它：253 (即 1111 1101)，可当－3 来用。　　　。。。最后：128，就可当－128 来用。以上这 128 个正数，就被计算机专家称作 “补码”。这些 “补码” 与负数的关系，你应该能看出来吧：　　[负数]补码 = 256 ＋该负数。例如：－27 的补码是神马？解：　　　256 ＋ (－27) = 229，　　　229 = 1110 0101 (二进制)。这不就完事了吗？哪有 “负数符号位为1原码反码取反加一” 的事啊！－－－－－－－－－－－－－－－－－－－－－求负数补码的公式，已经知道了：　　[负数]补码 = 256 ＋该负数。求正数（以及零）的补码，也可用这个公式：　　[正数]补码 = 256 ＋该正数。由于加上 256，将会出现进位。将进位舍弃之后，那就是：　　[正数]补码 = 该正数。这就证明了：正数和零的补码，就是该数字本身。也就是说，无论正数、负数或者零，　求补码的公式，都是同一个。　　这就不用再举例说明了吧？
计算机组成原理_计算机的运算方法
做而论道_CS: 计算机中，只有二进制数。二进制数，也是数，与十进制数，是雷同的。二进制数，也是数，并不是什么：原码反码补码。学过算术的人，就会知道：　如果舍弃了进位，此次加法，就是减法！如，两位十进制数，范围是：0 ~ 99。　（最大值是 +99。）那么，35 + 99 = (一百) 34，　　　35 － 1 = 34。如果你舍弃了进位，这两种算法就是相同的。即，忽略了进位：　加法就是减法！　+99，就是－1 ！把这思路，用在计算机中，就可以节省一个减法器。计算机的字长，是固定的。八位机，其表示范围是：　　0000 0000 ~ 1111 1111。即十进制的：0 ~ 255。此处的最大值 255，也就相当于－1 了。如 13－1 = 12，八位机将如下计算：　　0000 1101 　＋ 1111 1111 －－－－－－－－ (进 1) 0000 1100 你如果舍弃进位，即可用加法，实现减法运算。因此，二进制的机器数，它也是数！并非是神马原码反码符号位！二进制数，也符合数字的运算规律。当你【舍弃进位】，所谓的补码，就出来了。根本就不用琢磨什么符号位取反加一！
计算机组成原理_计算机的运算方法
做而论道_CS: 其实，从机器数真值符号位...开始来解释补码，也是错误的。码长八位时，各码的范围如下。　原码：－127 ~ +127；　反码：－127 ~ +127；　补码：－128 ~ +127。－128 有补码，却没有原码和反码。　没有原码，拿什么取反？　没有反码，拿什么加一？那么，补码，又是怎么求出来的呢？而且，在计算机中，正负数，一律采用补码表示和存储。原码和反码，都是不存在的。计算机中根本就没有原码反码，取反加一，又该怎么用？
计算机组成原理_计算机的运算方法
做而论道_CS: 其实，对浮点数的理解，不需要弄这么麻烦的。上过初一的，都知道科学记数法：　N = ± 绝对值 × 10^e。绝对值，当然是正数，由一位整数、多位小数组成。 e 则是以 10 为底的指数。将此法，引入到计算机中，就是 “浮点数” 了：　N = (－1)^S × (1.) M × 2^E。其中的 1.M，就是绝对值，它是一个无符号数。阶码 E，则为：指数 e + 127。把 “科学记数法” 中的 “绝对值、指数 e”，拿来换算一下，“浮点数” 就出来了。浮点数的运算：　相加减，要先对阶，再用绝对值的补码加减。　相乘除，就是绝对值相乘除、阶码相加减。得出了加减乘除的结果后，还需要整理成规范的形式。计算机中的浮点数运算，是由 “浮点机” 实现的。（例如 80x86 系统的中的 “协处理器”。）对阶、上下溢、运算、规格化等等，都是由硬件完成的。这些步骤，不需要谁来编程。不用编程，还学它干嘛？难道，你们还想设计硬件？硬件的原理及其设计，就由 “电子信息工程专业” 去干吧。计算机专业的老师，就不要在这里哗众取宠了。计算机专业的学生，学了这些，也是 P 用都没有的。学了半年，也还是隔靴搔痒而已。计算机专业，了解一点 “定点数、补码” 就行了。当然，没上过中学又想装大头蒜的人，学学也无妨。

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。