【爬虫操作具体的步骤】

一、爬虫的步骤
1、 需求分析(人做),简单说就是找爬虫的对象,你想具体爬啥。

2、找到你爬取的网站

3、下载request(网站的返回内容)

4、再利用正则表达式-re,xpath-lxml(通过返回的信息找到需要爬取的数据内容)

5、然后就是找到mysql(存储找到的数据内容)

二、这步就是关于requests
在这里插入图片描述
这是返回url的网页信息,图片视频等等…

request这是属于一个类,就好比重新写个__str__方法()返回值,如果有网页的内容,返值就写200

三、网址协议(http)
这个概括不出来,可以自行去百度理解含义

四、去掉重复的内容
1.可以通过函数,比如hash来实现

2.图片类型

3.针对url,用hash对url进行分组,对应出来的数字来调用位图

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值