python爬虫数据提取,Python 信息提取-爬虫,爬虫提取数据, import re

Python 信息提取-爬虫,爬虫提取数据, import re

1be375d50539c0e9f5a4bc0b9ebb7c8d.png

64d278f7c6be63b916fb7ce58131b2b5.png

55cbbaa43b8033bd3be66b11ad259c14.png

39835196811b8517f4cf4a4ea78376b6.png

24fd41706ecb1c39d56a113205972a86.png

00f0d717b16faa35ecde1a2e68e6b796.png

import requestsimport refrom bs4 import BeautifulSoupurl = "http://python123.io/ws/demo.html"r = requests.get(url)print(r.text)demo = r.textsoup = BeautifulSoup(demo,"html.parser") #熬一锅粥for link in soup.find_all(‘a‘): print(link.get(‘href‘))for clas in soup.find_all(‘a‘): print(clas.get(‘class‘))#以下介绍find_all 正则表达式for tag in soup.find_all(re.compile(‘b‘)): #查找所有以b开头的标签,第一个属性 print(tag.name)p1 = soup.find_all(‘p‘,‘course‘) #查找含有course的p标签内容print(p1)p2 = soup.find_all(id=‘link1‘) #查找含有id=‘link1‘属性的标签内容,注意:属性不等于文本print(p2)p3 = soup.find_all(id=‘link‘) #查找含有id=‘link‘属性的标签内容,没有,所以返回未空,即[]print(p3)p4 = soup.find_all(id=re.compile(‘link‘)) #使用正则表达式查找id属性含有link的内容print(p4)p5 = soup.find_all(‘a‘) #返回不为空,说明soup的子孙节点含有a标签print(p5)p6 = soup.find_all(‘a‘,recursive=False) #返回为空,说明soup的子节点无a标签print(p6)p7 = soup.find_all(string="Basic Python")#查找正文为且仅为Basic Python的元素print(p7)p8 = soup.find_all(string="Python") #返回为空print(p8)p9 = soup.find_all(string=re.compile("Python")) #正则表达式查找含有Python的元素,返回列表类型print(p9)p10 = len(p9) #有3个元素在pp里面。即有三个元素含Pythonprint(p10)for str in p9: print(str)

Python 信息提取-爬虫

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值