python爬虫基础

1. 前言

我不是专业爬虫工程师,只是业余爬点数据做做分析和挖掘工作,所以没有使用到复杂的反爬虫和线程池等技术,也没有用到beautifulSoup这样的神库。但是并不影响我轻松爬取网页数据。
这里简单记录下浏览器操作,源码读取,以及数据提取的方法,够用了。

2. selenium操作chrome浏览器

2.1. 安装chrome浏览器和浏览器驱动

首先你需要安装chrome浏览器,以及下载对应的chromedriver.exe驱动,并将chromedriver.exe驱动目录添加至path环境变量,简单的做法是将chromedriver.exe驱动放到python的安装目录即可。
chromedriver驱动和chrome的版本对应关系在每个chromedriver驱动下载目录的notes.txt文件都有说明,chromedriver驱动下载网址是:http://chromedriver.storage.googleapis.com

测试安装情况:
如果能正常打开百度说明安装成功

from selenium.webdriver import Chrome
browser = Chrome()
browser.get('https://www.baidu.com')

3. selenium使用xpath定位元素

3.1. 提取数据

使用xpath定位元素是我看到的最简单也是最快的方法,没有之一,方法是,在chrome浏览器打开某个页面后,将鼠标放到某个元素(文字,链接,图片等),点击鼠标右键,选择检查,即可得到元素所在的html地址。然后我们在右键选择copy xpath即可得到元素的xpath。
得到xpath有什么用呢?太有用了,有了xpath,可以让程序获取xpath的文本信息,图片信息,超链接信息,进一步,模拟鼠标点击。

# 第1步,打开百度网页
from selenium.webdriver import Chrome
browser = Chrome()
browser.get('https://www.baidu.com')

# 第2步,获取xpath地址
# 通过刚才的方法,我们已经得到`新闻`的xpath
xpath=
  • 2
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值