python spider模块_GitHub - pasca520/Python3SpiderSet: 关于整理练习的一些爬虫小项目，从自己的理解去建模，同时对爬虫和解析模块分类...

weixin_39872044

于 2020-12-06 10:38:00 发布

阅读量69

点赞数

文章标签： python spider模块

Python3SpiderSet

本文目录

一、内容社区

1.知乎

知乎用户信息

二、购物网站

淘宝商品

京东商品

三、视频网站

B站

抖音

四、新闻网站

头条

五、房源

安居客

自如

58同城

贝壳找房

六、招聘信息

IT桔子

Boss 直聘

前程无忧

七、企业服务

IT桔子

天眼查

八、最爱

大众点评

12306

前言

关于整理日常练习的一些爬虫小练习，可用作学习使用。

项目集对爬取和解析模块分类，简单分类主要以下几点：

简单

中等

进阶

爬取模块

request

selenium

scrapy

解析模块

xpath、ajax的json 接口

css 选择器(BeautifulSoup等等)

正则表达式re

存储模块

文件(txt、csv 等等)

云存储

SQL

爬虫练手项目集

一、内容社区

1. 知乎

知乎图片

知乎上有很多钓鱼贴，也成功的钓上了很多鱼，你懂的~~~

这里通过 python 爬了一些图片，总共大概有十几万张，仅供练习使用：

示例

python 库

爬取模块

request

解析模块

存储类型

存储图片到本地&七牛云存储

参考知乎文章(回答数平均3k以上)：

接口返回的 json 数据 content 模块中，包含图片的有四个参数，被包含在

%E7%94%A8%E6%88%B7ID%E6%B0%B4%E5%8D%B0%E5%9B%BE%E7%89%87

分别是「img src、data-default-watermark-src、data-original、data-actualsrc」。

其中noscript标签是某些浏览器把Javascript禁用了才生效的，默认不生效。

不足：

因为仅仅学习使用，所以只开单线程模式，未开启多线程加速

对于错误异常未能很好的处理，我运行时没遇到

知乎用户信息

2. 豆瓣

豆瓣电影排行榜

示例

python 库

爬取模块

request

解析模块

BeautifulSoup

存储类型

list(方便存入数据库)

3. 猫眼

猫眼电影排行榜

示例

python 库

爬取模块

request

解析模块

xpath

存储类型

文件(txt)

二、购物网站

1. 淘宝商品

2. 京东商品

三、视频网站

1. B站

2. 抖音

四、新闻网站

头条

五、房源

1. 安居客

2. 自如

3. 58同城

4. 贝壳找房

六、招聘信息

1. IT桔子

2. Boss 直聘

3. 前程无忧

七、企业服务

1. IT桔子

2. 天眼查

八、最爱

1. 大众点评

2. 12306

weixin_39872044

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python spider模块_GitHub - pasca520/Python3SpiderSet: 关于整理练习的一些爬虫小项目，从自己的理解去建模，同时对爬虫和解析模块分类...

Python3SpiderSet本文目录一、内容社区1.知乎知乎用户信息二、购物网站淘宝商品京东商品三、视频网站B站抖音四、新闻网站头条五、房源安居客自如58同城贝壳找房六、招聘信息IT桔子Boss 直聘前程无忧七、企业服务IT桔子天眼查八、最爱大众点评12306前言关于整理日常练习的一些爬虫小练习，可用作学习使用。项目集对爬取和解析模块分类，简单分类主要以下几点：简单中等进阶爬取模块reques...
复制链接

扫一扫