python之selenium连接浏览器自动爬取内容

最新推荐文章于 2023-05-17 15:52:11 发布

长不大的树袋熊

最新推荐文章于 2023-05-17 15:52:11 发布

阅读量159

点赞数

分类专栏： python 文章标签： python selenium html 爬虫数据库

本文链接：https://blog.csdn.net/qq_53909287/article/details/122057634

版权

python 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

from selenium import webdriver
from lxml import etree
from time import sleep
import requests
if __name__ == '__main__':
    # 打开浏览器创建浏览器对象b
   b=webdriver.Chrome()
#    最大化窗口全屏
   b.maximize_window()
#     输入网址，回车发送请求
   b.get('http://spbfy.chinacourt.gov.cn/index.shtml')
   sleep(1)
#     源码输出
   print(b.page_source)
   html=etree.HTML(b.page_source)
   names=html.xpath('//*[@id="layout"]/div[7]/div[2]/div[2]/div[2]/ul/li[6]/span/a')
   print()
# 进入点击页面
   js='document.querySelector("#layout > div.index_right > div:nth-child(2) > div.list_br > div.list.dian_a.font14 > ul > li:nth-child(6) > span > a").click();'
   b.execute_script(js)
   sleep(5)
   # 爬取内容

   html = requests.get("http://spbfy.chinacourt.gov.cn/article/detail/2017/03/id/3201603.shtml")
    # print html.text
   etree_html = etree.HTML(html.text)
   content = etree_html.xpath('//*[@id="container"]/div//text()')
   print(len(content))
   for each in content:
       replace = each.replace('\n', '').replace(' ', '')
       if replace == '\n' or replace == '':
        continue
       else:
          print(replace)