python爬虫入门学习记录

最新推荐文章于 2024-06-05 17:45:18 发布

PeikLong

最新推荐文章于 2024-06-05 17:45:18 发布

阅读量90

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_39591838/article/details/102096888

版权

在使用爬虫前确保requests和BeautifulSoup4模块都已经安装好了：

pip install requests

pip install BeautifulSoup4

BeautifulSoup4使用手册：https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html

简单的示列代码：

import requests #导入requests包

url = 'http://www.ireader.com/index.php?ca=search.index&keyword=%E6%9C%B1%E8%87%AA%E6%B8%85'

strhtml = requests.get(url) #Get方式获取网页数据

strhtml.encoding='utf-8'

print(strhtml.text)

注：这里面使用requests的get方法来获取html，具体是get还是post等等要通过网页头信息来查询（以谷歌浏览器为例，在开发者模式下，network，选择all进行查看，可能需要刷新）

通过点取属性的方式只能获得当前名字的第一个标签，如: soup.body.a

如果想要得到所有的<a>标签,或是通过名字得到比一个tag更多的内容的时候,就需要用到 Searching the tree 中描述的方法,比如: find_all()

tag.name

tag.name = "black" #修改标签名

tag['class'] #获取属性

tag.attrs #获取所有属性

tag['id'] = 1 #修改属性

del tag['class'] #删除属性

tag.string.replace_with('no longer') #tag中包含的字符串不能编辑,但是可以被替换成其它的字符串,用 replace_with() 方法

tag.string #输出标签中的字符串

head_tag.contents[3].name #标签的 .contents 属性可以将标签的子节点以列表的方式输出:

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python爬虫入门学习记录

在使用爬虫前确保requests和BeautifulSoup4模块都已经安装好了： pip install requests pip install BeautifulSoup4 BeautifulSoup4使用手册：https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html简单的示列代码...
复制链接

扫一扫

PeikLong CSDN认证博客专家 CSDN认证企业博客

码龄7年

39: 原创

31万+: 周排名

217万+: 总排名

6万+: 访问

: 等级

822: 积分

37: 粉丝

43: 获赞

14: 评论

146: 收藏

私信

关注

最新评论

主观题自动评阅实现—week2
小源1108: 没有找到欸
主观题自动评阅实现—week2
求心不求佛: 请问你找到了吗？我也在找，交流下
主观题自动评阅实现—week2
小源1108: 你好我想请问你有没有这种简答题学生答案，标准答案，最终得分的数据集呀？
主观题自动评阅实现—week2
vivisol: 这个好像也没有办法判断“肯否问题”，只判断语义相似性的话，它会认为原命题和否命题是等价的，
DIPRE论文阅读记录——参考说明
LAWKAWAI: 终于明白了为什么要取前缀中的最长匹配后缀作为pattern的前缀了，太赞了

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。