spider学习_基本思路总结

1.爬虫的目的获取网上的一些信息,并且做出一定分析,以达到我们工作中的需求2.爬虫的两种分类通用爬虫 : 通常指搜索引擎的爬虫, 像百度搜索这些聚焦爬虫 : 针对特定的网站的爬虫3. 一个爬虫程序的构建思路获取url地址对于数量不多的,可以构建url列表,但大多情况下,还是很多的.因此我们要目前分组,比如获取某图书商店的信息,要对图书种类进行分类,获得他们的url地址,然后在进去该分类中的列表页获取该列表页下一页地址.通常麻烦的就是翻页的问题了,如果好的话,可以直接在翻页出找到url
摘要由CSDN通过智能技术生成

1.爬虫的目的

获取网上的一些信息,并且做出一定分析,以达到我们工作中的需求

2.爬虫的两种分类

  1. 通用爬虫 : 通常指搜索引擎的爬虫, 像百度搜索这些
  2. 聚焦爬虫 : 针对特定的网站的爬虫

3. 一个爬虫程序的构建思路

  1. 获取url地址
    对于数量不多的,可以构建url列表,但大多情况下,还是很多的.因此我们要目前分组,比如获取某图书商店的信息,要对图书种类进行分类,获得他们的url地址,然后在进去该分类中的列表页获取该列表页下一页地址.
    通常麻烦的就是翻页的问题了,如果好的话,可以直接在翻页出找到url地址,如果没有的话,是通过js生成的,我们就需要去 Network查找了.
    这种通过js生成的, 发送ajax请求数据, 获得的json数据,所以,我们需要观看请求头中,是否有需要携带的格外参数.

  2. 发送请求
    要考虑是否需要携带参数,是否需要ip池
    分布式爬虫里面,通过redis放url地址,来实现分布式爬虫

  3. 获取数据
    这里需要注意的就是编码格式了, 我每次做到这里, 都会先print一次,看看数据对不对,是不是我想要的( 不过爬虫还是太难的,因为我发现我看的好多案例,现在已经不能用了,好多网站已经反爬很厉害了,哎,对我们这些新手来说,太不友好了 )
    获取数据的主要方式: (编码格式要注意)
    json数据的话,使用requests模块在content中, scrapy是在body中
    xpath, 当数据在Elements和请求体中一样时,可以用,我个体是挺喜欢xpath的.
    通过re正则表达式请求, 比如获得当前页的page,来构造next_url,这种情况我用的挺多的

  4. 处理数据
    处理数据的话, 就是在数据保存的mongodb中, redis也可以, 然后就是做一些数据的分析.

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值