python
guohan_solft
java、大数据开发工程师
展开
-
Python 爬虫实战 汽车某家(一) 品牌
一、品牌爬取1、进入主页、测试待爬取内容是否为动态加载通过爬取产品库首页品牌列表爬取汽车品牌链接,产品库网址https://car.autohome.com.cn/,通过scrapy shell测试内容是否是动态加载的,动态加载的爬取不到scrapy shell "https://car.autohome.com.cn/"2、找到动态请求shell访问后发现页面元素取不到,证明是动态加...原创 2018-12-15 11:10:01 · 3406 阅读 · 12 评论 -
Python 爬虫实战 汽车某家(二) 车系
一、获取链接来源浏览器请求:https://car.autohome.com.cn1、打开F12,点击左侧品牌导航栏其中一个品牌2、查找返回品牌车系请求通过爬取品牌得知,左侧导航栏是通过另一个get请求加载的,由此可以当加载品牌下的车系时极有可能是一个链接,因此打开F12搜索list,果然再次找到该请求,单独复制到浏览器请求发现返回html,将返回的html复制到在线格式化工具,可以清楚地...原创 2018-12-15 11:40:48 · 1580 阅读 · 0 评论 -
Python 爬虫实战 汽车某家(三) 车型
一、爬取逻辑分析核心1、将爬取分为爬取流程和内容解析1)爬取流程控制请求在售、即将销售、停售的请求分发2) 内容解析负责当前页面的循环解析和分页请求二、爬取页面销售状态分析<div class="tab-nav border-t-no"> <!--状态tab、排序--> <div class="原创 2018-12-15 11:47:51 · 1565 阅读 · 0 评论 -
Python 爬虫实战 汽车某家(四) 车型配置
前言:汽车之家车型配置数据是js加载+js动态伪元素防爬加载,原始页面中不存在任何数据,因此通过scrapy显式爬取已经不太可能,通过查阅大量资料发现通过所见即所得可以爬取到显式的值,但是对于伪元素加载的值是无法爬取到的,这就需要转个弯,既然隐式爬取不到,那么把隐式的值转为显式的不就可以爬取到了吗!还真是,通过测试验证成功,下面请看爬取demo吧!一、工具选择所见即所得工具有seleniu...原创 2018-12-15 11:55:34 · 2933 阅读 · 7 评论 -
Python 爬虫实战 汽车某家(五) 口碑、评分
爬取内容1、用户口碑明细评分2、口碑标题、发表日期、口碑推荐级别3、购车目的4、购车价格5、购车经销商一、项目结构point.txt 为断点保存文件,over.txt为爬取结束标识文件,不存放任何内容二、核心类代码import time,json,re,random,datetimefrom io import BytesIOfrom PIL import Imag...原创 2018-12-15 12:11:25 · 3872 阅读 · 1 评论 -
Python 爬虫实战 汽车某家(六) 论坛列表
功能:分页数据采集、断点续爬文件目录如下,其中temp文件夹用于存放断点文件代码如下:# 论坛帖子列表爬取#功能介绍# 1、论坛断点爬取# 2、分页断点续爬# 3、采新设计:当一轮数据全部爬取完毕后再次爬取,只要采集每日新增的帖子即可,不必全部爬取# 采集数据# 1、论坛版主数据:版主用户ID,保存到版主表# 2、论坛图标:更新到论坛表# 3、合并的车系:保存到论坛车系...原创 2018-11-21 18:43:39 · 1295 阅读 · 0 评论 -
Python爬虫框架 scrapy之xpath选择器 css选择器
一 、xpath1、节点选择/:从根节点选取//:从匹配的当前节点选择文档中的节点,而不考虑它们的位置.:选择当前节点…:选择当前节点的父节点@:选取属性response.xpath('/html/head/title') --选择HTML文档head元素下的title标签response.xpath('/html/head/title/text()')--选择title元素下的文...原创 2018-12-15 12:24:46 · 969 阅读 · 0 评论 -
Python爬虫框架 Mac安装selenium
一、终端安装[localhost:~ guohan$ pip install seleniumCollecting selenium Downloading https://files.pythonhosted.org/packages/b8/53/9cafbb616d20c7624ff31bcabd82e5cc9823206267664e68aa8acdde4629/selenium-3...原创 2018-12-15 12:32:26 · 701 阅读 · 0 评论