spider学习_基本思路总结

最新推荐文章于 2020-08-12 16:49:42 发布

sola_酱

最新推荐文章于 2020-08-12 16:49:42 发布

阅读量472

点赞数

分类专栏： spider 文章标签：大数据数据分析

本文链接：https://blog.csdn.net/qq_42223962/article/details/106616639

版权

1.爬虫的目的获取网上的一些信息,并且做出一定分析,以达到我们工作中的需求2.爬虫的两种分类通用爬虫 : 通常指搜索引擎的爬虫, 像百度搜索这些聚焦爬虫 : 针对特定的网站的爬虫3. 一个爬虫程序的构建思路获取url地址对于数量不多的,可以构建url列表,但大多情况下,还是很多的.因此我们要目前分组,比如获取某图书商店的信息,要对图书种类进行分类,获得他们的url地址,然后在进去该分类中的列表页获取该列表页下一页地址.通常麻烦的就是翻页的问题了,如果好的话,可以直接在翻页出找到url

摘要由CSDN通过智能技术生成

1.爬虫的目的

获取网上的一些信息,并且做出一定分析,以达到我们工作中的需求

2.爬虫的两种分类

通用爬虫 : 通常指搜索引擎的爬虫, 像百度搜索这些
聚焦爬虫 : 针对特定的网站的爬虫

3. 一个爬虫程序的构建思路

获取url地址
对于数量不多的,可以构建url列表,但大多情况下,还是很多的.因此我们要目前分组,比如获取某图书商店的信息,要对图书种类进行分类,获得他们的url地址,然后在进去该分类中的列表页获取该列表页下一页地址.
通常麻烦的就是翻页的问题了,如果好的话,可以直接在翻页出找到url地址,如果没有的话,是通过js生成的,我们就需要去 Network查找了.
这种通过js生成的, 发送ajax请求数据, 获得的json数据,所以,我们需要观看请求头中,是否有需要携带的格外参数.
发送请求
要考虑是否需要携带参数,是否需要ip池
分布式爬虫里面,通过redis放url地址,来实现分布式爬虫
获取数据
这里需要注意的就是编码格式了, 我每次做到这里, 都会先print一次,看看数据对不对,是不是我想要的( 不过爬虫还是太难的,因为我发现我看的好多案例,现在已经不能用了,好多网站已经反爬很厉害了,哎,对我们这些新手来说,太不友好了 )
获取数据的主要方式: (编码格式要注意)
json数据的话,使用requests模块在content中, scrapy是在body中
xpath, 当数据在Elements和请求体中一样时,可以用,我个体是挺喜欢xpath的.
通过re正则表达式请求, 比如获得当前页的page,来构造next_url,这种情况我用的挺多的
处理数据
处理数据的话, 就是在数据保存的mongodb中, redis也可以, 然后就是做一些数据的分析.

最低0.47元/天解锁文章

sola_酱

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
spider学习_基本思路总结

1.爬虫的目的获取网上的一些信息,并且做出一定分析,以达到我们工作中的需求2.爬虫的两种分类通用爬虫 : 通常指搜索引擎的爬虫, 像百度搜索这些聚焦爬虫 : 针对特定的网站的爬虫3. 一个爬虫程序的构建思路获取url地址对于数量不多的,可以构建url列表,但大多情况下,还是很多的.因此我们要目前分组,比如获取某图书商店的信息,要对图书种类进行分类,获得他们的url地址,然后在进去该分类中的列表页获取该列表页下一页地址.通常麻烦的就是翻页的问题了,如果好的话,可以直接在翻页出找到url
复制链接

扫一扫