python爬虫之新浪网（简洁版）

最新推荐文章于 2024-05-20 21:35:11 发布

blingbling＊

最新推荐文章于 2024-05-20 21:35:11 发布

阅读量666

点赞数

分类专栏： python爬虫

本文链接：https://blog.csdn.net/qq_38112817/article/details/104627874

版权

新浪新闻
爬虫
python

注释挺详细了，直接上全部代码，欢迎各位大佬批评指正。

from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.common.by import By
from time import sleep
from lxml import etree
import os
import requests
import csv

# 创建一个无头浏览器对象
chrome_options = Options()
# 设置它为无框模式
chrome_options.add_argument('--headless')
# 如果在windows上运行需要加代码
chrome_options.add_argument('--disable-gpu')
browser = webdriver.Chrome(chrome_options=chrome_options)
# 设置一个10秒的隐式等待
browser.implicitly_wait(10)
# 使用谷歌无头浏览器来加载动态js
def start_get(url):
    try:
        browser.get(url)
        
        a = []
        for one in range(1, 100):
            sleep(0.5)
            # 翻到页底
            browser.execute_script('window.scrollTo(0,document.body.scrollHeight)')
            sleep(0.5)
            # 再次翻页到底
            browser.execute_script('window.scrollTo(0,document.body.scr

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

blingbling＊

关注关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
python爬虫之新浪网（简洁版）

新浪新闻爬虫python注释挺详细了，直接上全部代码，欢迎各位大佬批评指正。from selenium import webdriverfrom selenium.webdriver.chrome.options import Optionsfrom selenium.webdriver.common.by import Byfrom time import sleepfrom...
复制链接

扫一扫