爬虫核心思想

页面解析与数据提取
实际上爬虫一共就四个主要步骤:

  • 定(要知道你准备在哪个范围或者网站去搜索)
  • 爬(将所有的网站的内容全部爬下来)
  • 取(分析数据,去掉对我们没用处的数据)
  • 存(按照我们想要的方式存储和使用)
  • 表(可以根据数据的类型通过一些图标展示)

以前学的就是如何从网站去爬数据,而爬下来的数据却没做分析,现在,就开始对数据做一些分析。

数据,可分为非结构化数据和结构化数据

结构化数据:(先有结构,再有数据):

  •  JSON 格式
     XML文件
     (结构化的数据是指可以使用关系型数据库表示和存储,表现为二维形式的数据。
    

非结构化数据:(先有数据,再有结构)

  • 常用

     文本、电话号码、邮箱地址
     HTML文件
    
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

猿来是小贝壳

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值