爬虫
caroline_richboom
大数据小白的自学之路
展开
-
初学爬虫(三):使用selenium模拟浏览器抓取动态网页之(2)selenium项目实战——深圳短租数据
本项目目的是获取Airbnb深圳前五页的短租房源数据。目标网址:Airbnb深圳短租数据一、分析网站HTML代码标签1、在网页任意地方右击鼠标 > 检查2、找到“房子所有数据”对应的HTML代码找到房子所有数据的地址为:div.gigle73、找到“房子价格”对应的HTML代码找到房子价格的地址为:span.krjbj4、找到“房子分数,房子评论数”对应的HTML代码找到房子分数,房子评论数的地址为:span._1clmxfj5、找到“房子名称”对应的HTML代码找到原创 2020-11-24 20:33:10 · 542 阅读 · 3 评论 -
geckodriver的下载、安装与配置
1、下载geckodriver压缩包链接:https://pan.baidu.com/s/1u8_lFbCWSc3Bux2Win0v-Q提取码:2677下载好后的geckodriver压缩包:2、解压geckodriver将1中下载好的geckodriver压缩包解压得到exe文件:3、将2中得到的exe文件复制到Firefox安装目录下4、将3中的Firefox目录路径添加到环境变量中右击我的电脑 > 属性选择“高级系统设置”选择环境变量在系统变量里选择“path”原创 2020-11-11 10:05:39 · 7715 阅读 · 0 评论 -
初学爬虫(三):使用selenium模拟浏览器抓取动态网页之(1)安装selenium库and对selenium库的基本使用
1、安装selenium库直接使用最简单的pip命令安装:pip install selenium2、selenium库的基本使用(1)下载geckodriver为什么需要下载geckodriver呢?因为新版的selenium无法正常运行,需要下载geckodriver才行。如:现使用selenium打开一个浏览器和网页:from selenium import webdriverdriver = webdriver.Firefox()driver.get("https://blog原创 2020-11-11 09:30:38 · 808 阅读 · 0 评论 -
初学爬虫(一):编写第一个爬虫程序:获取页面、提取需要的数据、如何精准定位标题的HTML代码位置、存储数据
注意:爬虫是需要基础python知识的,若没有学习过python,可见我的python入门使用系列博客:python入门使用(一):运行方式and基本命令原创 2020-11-02 17:08:01 · 1929 阅读 · 1 评论 -
初学爬虫(二):爬取静态网页之(4)使用requests库进行爬虫实践——获取豆瓣电影TOP250的电影名字全过程详解
1、实践项目描述本实践目的是获取豆瓣电影TOP250的所有电影的名称原创 2020-11-10 11:12:24 · 1324 阅读 · 0 评论 -
初学爬虫(二):爬取静态网页之(3)自定义requests——发送POST请求and超时处理
1、发送POST请求从前面初学爬虫(二):爬取静态网页之(3)自定义requests——设置传递URL(网络地址)参数and自定义请求头(怎么找+怎么做)中已经讲解过通过get函数设置传递URL(网络地址)参数来实现get请求。但是get函数存在两个问题:get函数无法实现发送一些编码为表单形式的数据get函数用在登录时,会直接将密码显示在URL中,这样十分不安全post请求就能很好的解决上述get请求存在的两个问题。话不多说,直接上实例:未将字典传递给data参数时:import re原创 2020-11-04 09:51:10 · 563 阅读 · 0 评论 -
初学爬虫(二):爬取静态网页之(3)自定义requests——设置传递URL(网络地址)参数and自定义请求头(怎么找+怎么做)
在初学爬虫(二):爬取静态网页之(2)获取网页响应内容——requests.get()函数中讲解了如何使用requests函数获取网页响应内容。但是,有些网页不能如上直接被获取,而是需要对requests中的参数进行设置才能获取需要的数据。1、设置传递URL(网络地址)参数如果需要请求获取特定的数据,就需要在URL(网络地址)的查询字符串中加入一些数据来实现。在requests中,直接使用params参数就可以实现设置URL参数:import requestskey_dict = {'k1':原创 2020-11-04 09:03:44 · 1055 阅读 · 1 评论 -
初学爬虫(二):爬取静态网页之(2)获取网页响应内容——requests.get()函数
下面根据一个实例来讲解如何通过requests.get()函数来获取网页响应的内容:这是我主页的截图:获取上图主页内容的代码:原创 2020-11-03 19:23:08 · 1538 阅读 · 4 评论 -
初学爬虫(二):爬取静态网页之(1)安装requests库
1、什么是静态网页?静态网页一般指的是纯粹HTML的网页。静态网页的所有数据都呈现在网页的HTML代码中,所以静态网页的数据是比较容易获取的。2、为什么要安装requests库?requests库是一个功能十分强大且完善的库,它能帮助我们轻松的发送HTTP请求,且操作十分简单。3、安装requests库安装第三方库最简单的方式就是通过pip命令在终端安装:输入命令:pip install requests因为我之前已经安装过requests了,所以显示已存在。...原创 2020-11-03 11:28:21 · 188 阅读 · 0 评论