Day02 爬虫学习入门第二天:正则,bs4,xpath,爬虫实战

虽然今天很累,但是其实也没有学很多东西,还是来整理一下,以免忘记,之后会自己去爬一些网站数据…
今天主要学了bs4和xpath,分为这两个部分来整理笔记:

文章目录

1.bs4解析

  • 为什么需要在爬虫中使用数据解析
    • 就是为了可以实现聚焦爬虫
  • 数据解析的通用原理(解析的数据指挥存在于标签之间或者属性中)
    • html是用来展示数据
    • 原理流程:
      • 标签定位
      • 数据的提取
  • bs4数据解析的解析原理/流程
    • 实例化一个BeautifulSoup的对象,且将等待被解析的数据加载到该对象中
      • 方式1:
        • BeautifulSoup(fp,‘lxml’) #解析本地存储的html文件
      • 方式2:
        • BeautifulSoup(page_text,‘lxml’) #解析互联网上请求到的页面数据
    • 调用BeautifulSoup对象中的相关方法和属性进行标签定位和数据的提取
      • 标签定位
        • soup.tagName:返回第一次出现的tagName标签
        • 属性定位:soup.find(‘tagName’,attrName=‘value’)
        • findALL和find的用法一样,但是返回值不同
        • 选择器定位:select(‘selector’)
      • 数据的提取
        • 提取标签中存在的数据
          • .string:取出标签直系的文本内容
          • .text:取出标签中所有的文本内容
        • 提取标签属性中存储的数据
          • tagName[‘attrName’]
  • 环境的安装:
    • pip install bs4
    • pip install lxml

直接用一个例子来看,使用bs4爬取某网站上面三国演义的内容,需要添加headers

### 使用bs4解析三国演义的内容 
import requests
url = 'http://shicimingju.com/book/sanguoyanyi.html'
page_text = requests.get(url,headers=headers).text #首页的页面源码数据
fp = open('./sanguo.txt','w'
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值