2.18 爬页面源码（page_source）

最新推荐文章于 2023-03-13 08:43:01 发布

weixin_30508309

最新推荐文章于 2023-03-13 08:43:01 发布

阅读量528

点赞数 1

文章标签： python

原文链接：http://www.cnblogs.com/lunvo/p/9183060.html

版权

2.18 爬页面源码（page_source）

前言
有时候通过元素的属性的查找页面上的某个元素，可能不太好找，这时候可以从源码中爬出想要的信息。selenium的page_source方法可以获取到页面源码。
一、page_source
1.selenium的page_source方法可以直接返回页面源码
2.重新赋值后打印出来

二、re非贪婪模式
1.这里需导入re模块(正则表达式模块)
2.用re的正则匹配：非贪婪模式
3.findall方法返回的是一个list集合
4.匹配出来之后发现有一些不是url链接，可以筛选下

三、筛选url地址出来
1.加个if语句判断，‘http’在url里面说明是正常的url地址了
2.把所有的url地址放到一个集合，就是我们想要的结果啦

四、参考代码

# coding:utf-8
from selenium import webdriver
import re driver = webdriver.Firefox() driver.get("http://www.cnblogs.com/yoyoketang/") page = driver.page_source # print page # "非贪婪匹配,re.S('.'匹配字符,包括换行符)" url_list = re.findall('href=\"(.*?)\"', page, re.S) url_all = [] for url in url_list:     if "http" in url:         print url         url_all.append(url) # 最终的url集合 print url_all