爬虫Xpath
文章平均质量分 90
这个专栏主要是记录下在学习过程中,所爬取的各类网站,主要以Xpath为主。
数分小白龙
一名学习数分的小小白
展开
-
Python之爬取百度地图兴趣点(POI)数据
关于爬虫系列,前三篇文章分别讲了三个简单案例,分别爬取了《你好,李焕英》电影豆瓣热门短评、58同城在售楼盘房源信息以及安居客网二手房小区详情页数据,这篇文章主要谈一谈如果用Python调查百度地图API接口,获取百度地图上的兴趣点(Point of interest)。...原创 2021-06-05 17:28:55 · 22531 阅读 · 23 评论 -
Python之爬取安居客网二手房小区详情页数据
哈喽,小伙伴们,前两篇博客案例基本上将爬虫基础流程介绍的差不多了,这篇博客开始放重磅炸弹,难度系数上升一些(难度1:涉及二级页面爬取,难度2:共爬取17个字段)。本文的主要内容:以石家庄市为例,爬取安居客网二手房小区的详情页的相关字段信息,关于二手房小区首页信息的爬取这里就不作过多介绍,因为与上一篇博客(Python爬取58同城在售楼盘房源信息)的爬虫步骤基本一致,感兴趣的小伙伴可以去看下呀。好了,废话不多说,开始展开~首先,我们先打开安居客官方网站,设置好两个筛选条件:石家庄市、二手房小区(这个根据小原创 2021-05-23 11:12:27 · 15425 阅读 · 30 评论 -
Python之爬取58同城在售楼盘房源信息
上一篇博客以爬取《你好,李焕英》豆瓣热门短评来作为爬虫入门小案例,这一篇博客主要以石家庄市为例,爬取58同城在售楼盘房源信息,主要包括以下字段:小区名称,所在区,地址以及均价等,总体来说,难度系数不大,算是入门级第二个小案例,废话不多说,让我们一起去看看把;从58同城石家庄市新房首页可以看出,总共显示696个楼盘,但是有些楼盘并不是在售状态,售价还没公布,所以为了数据爬取完整,增加两个筛选条件(在售,住宅),如下图所示。从图中可以看到,筛选后满足条件的楼盘共有221个,每页有60个楼盘,一共需要爬取4页原创 2021-05-20 12:02:54 · 6358 阅读 · 5 评论 -
Python之爬取《你好,李焕英》电影豆瓣短评
2021年春节档热播电影《你好,李焕英》,拿下累计票房54.12亿,一路杀进中国票房榜前五,堪称票房黑马。今天就以《你好,李焕英》这部电影为例,利用Python中的Xpath爬取其豆瓣短评,爬取的字段主要有:评论者、评分、评论日期、点赞数以及评论内容。该案例难度系数不大,刚好作为入门案例,废话不多说,让我们一起去看看吧!注:虽然在短评首页显示《你好,李焕英》共有41万多条短评,但是当浏览时,却发现只能查看前25页的短评,也就是说用户只能看到500条短评评论。发现这个问题后,查阅了一些相关资料,原来是原创 2021-05-16 12:29:03 · 10126 阅读 · 20 评论 -
Python之反爬虫手段(User-Agent,Cookie,Referer,time.sleep(),IP代理池)
现在的爬虫越来越难,各大网站为了预防不间断的网络爬虫,都相应地做出了不同的反爬机制,那么如何能够在不被封IP的情况,尽可能多得爬取数据呢?这里主要介绍到一些通用的反爬措施,虽然不一定适合所有网站,但是大部分网站的爬取,个人认为还是可以的。本文主要介绍到User-Agent,Cookie,Referer,time.sleep()设置睡眠间隔,ProxyPool之IP池的搭建,小伙伴们各取所需!由于后续爬虫案例都默认自带这些反爬技术,所以这里就统一详细介绍下,后续案例就不再过多涉及,废话不多说,开始展开!原创 2021-05-15 14:40:50 · 6638 阅读 · 13 评论 -
Python之Xpath爬虫基础解析
在爬虫中,数据解析方法有很多中,比如正则表达式、bs4、Xpath、pyquery等,这个专栏所涉及到的爬虫主要以Xpath为主。Xpath解析:最常用且最便捷高效的一种解析方式,通用性强。1. Xpath解析原理(1)实例化一个etree对象,且需要将被解析的页面源码数据加载到该对象中;(2)调用etree对象中的Xpath方法结合Xpath表达式实现标签的定位和内容的获取。2. 环境的安装pip install lxml3. 实例化一个etree对象(两种情况:本地与网站)原创 2021-05-14 22:39:07 · 1425 阅读 · 0 评论