python spider模块_GitHub - pasca520/Python3SpiderSet: 关于整理练习的一些爬虫小项目,从自己的理解去建模,同时对爬虫和解析模块分类...

Python3SpiderSet

本文目录

一、内容社区

1.知乎

知乎用户信息

二、购物网站

淘宝商品

京东商品

三、视频网站

B站

抖音

四、新闻网站

头条

五、房源

安居客

自如

58同城

贝壳找房

六、招聘信息

IT桔子

Boss 直聘

前程无忧

七、企业服务

IT桔子

天眼查

八、最爱

大众点评

12306

前言

关于整理日常练习的一些爬虫小练习,可用作学习使用。

项目集对爬取和解析模块分类,简单分类主要以下几点:

简单

中等

进阶

爬取模块

request

selenium

scrapy

解析模块

xpath、ajax的json 接口

css 选择器(BeautifulSoup等等)

正则表达式re

存储模块

文件(txt、csv 等等)

云存储

SQL

爬虫练手项目集

一、内容社区

1. 知乎

知乎图片

知乎上有很多钓鱼贴,也成功的钓上了很多鱼,你懂的~~~

这里通过 python 爬了一些图片,总共大概有十几万张,仅供练习使用:

示例

python 库

爬取模块

request

解析模块

re

存储类型

存储图片到本地&七牛云存储

参考知乎文章(回答数平均3k以上):

接口返回的 json 数据 content 模块中,包含图片的有四个参数,被包含在

%E7%94%A8%E6%88%B7ID%E6%B0%B4%E5%8D%B0%E5%9B%BE%E7%89%87

%E7%94%A8%E6%88%B7ID%E6%B0%B4%E5%8D%B0%E5%9B%BE%E7%89%87

分别是「img src、data-default-watermark-src、data-original、data-actualsrc」。

其中noscript标签是某些浏览器把Javascript禁用了才生效的,默认不生效。

不足:

因为仅仅学习使用,所以只开单线程模式,未开启多线程加速

对于错误异常未能很好的处理,我运行时没遇到

知乎用户信息

2. 豆瓣

豆瓣电影排行榜

示例

python 库

爬取模块

request

解析模块

BeautifulSoup

存储类型

list(方便存入数据库)

3. 猫眼

猫眼电影排行榜

示例

python 库

爬取模块

request

解析模块

xpath

存储类型

文件(txt)

二、购物网站

1. 淘宝商品

2. 京东商品

三、视频网站

1. B站

2. 抖音

四、新闻网站

头条

五、房源

1. 安居客

2. 自如

3. 58同城

4. 贝壳找房

六、招聘信息

1. IT桔子

2. Boss 直聘

3. 前程无忧

七、企业服务

1. IT桔子

2. 天眼查

八、最爱

1. 大众点评

2. 12306

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值