爬虫入门实例(三)

import requests
import re
from bs4 import BeautifulSoup
r = requests.get("http://python123.io/ws/demo.html")
# 借用小嵩老师提供的网址
print(r) #查看response对象的状态码
demo = r.text
print(demo) # 输出文档内容
soup = BeautifulSoup(demo, "html.parser")
for tag in soup.find_all(id = re.compile('link')):
    print(tag)
# 查找标签属性id中含有link字符串的标签,模糊查找
# for tag in soup.find_all(id='link'):
#     print(tag)
# 精确查找,id必须为link,没有多余前缀或后缀
for tag in soup.find_all(re.compile('b')):
    pass
    #print(tag.name)
# 输出以字母b开头的标签,用'^b'来替换,输出结果不变
for tag in soup.find_all(True):
    print(tag.name)
# 输出所有标签,只输出标签名,不输出标签内容;
# 若想输出标签内容,可用前一篇.children、.next_sibling等进行输出
print(soup.find_all(['a','b']))
# 以列表的形式输出a,b标签
print(soup.find_all('a'))
# 可以通过单独输出查看a标签与同时查询a,b标签的区别
# find_all( name , attrs , recursive , string , **kwargs )
# find_all() 方法搜索当前tag的所有tag子节点,并判断是否符合过滤器的条件
# <>.find_all(name,attrs,recursive,string,##kwargs)
# 返回一个列表类型,存储查找的结果
# name:对标签名称的检索字符串
# attrs:对标签属性值得检索字符串,可标注属性检索,
# 标签name中含有attrs.也可直接对属性操作,精确查找
print(soup.find_all('b', recursive=False))
# recursive:是否对子孙全部检索,默认值时true
print(soup.find_all(string = re.compile("python")))
# string:<>……</>中字符串区域的检索字符串,精确检索
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Python爬虫是一种非常流行的应用领域,可以用于从网页上提取数据并进行分析。这个项目可以让初学者将他们所学的Python知识应用起来,并提供了一个学习和实践的机会。例如,你可以编写一个简单的Python爬虫来获取网页上的新闻内容,然后将其保存到本地文件或数据库中。你还可以使用Python爬虫来获取网站上的图片或视频资源。这些都是非常实用的项目,可以帮助你更好地理解和掌握Python编程技巧。引用的建议是找到自己感兴趣、能够跟着动手和学习的Python项目,这样才能够坚持下去并不断提高。所以,对于爬虫项目,你可以选择你感兴趣的网站或数据源,并使用Python编写相应的爬虫程序来抓取数据。这样可以帮助你加深对Python编程的理解,并为将来的项目打下基础。123 #### 引用[.reference_title] - *1* *2* [18个python爬虫项目案例,推荐给缺少Python项目实战经验的人](https://blog.csdn.net/CSDN_224022/article/details/130948529)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT0_1"}} ] [.reference_item] - *3* [python爬虫实例100例-10个python爬虫入门实例](https://blog.csdn.net/q6q6q/article/details/109347118)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT0_1"}} ] [.reference_item] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值