python爬取某乎专栏文章标题及URL

# -*- coding:utf-8 -*-
from selenium import webdriver
import time

# 运行程序要安装selenium模块,并下载Chrome浏览器驱动
driver = webdriver.Chrome()
driver.get('https://zhuanlan.zhihu.com/buzhisuowei')                           # 专栏地址

# 将滚动条拉到页面最底部,使页面加载全部文章
i = 0
while(i < 10):                                                  #当文章数量多时,把10变大一些
    driver.execute_script("window.scrollBy(0,5000)")
    time.sleep(2)
    i += 1

# 通过class name找到所有文章的标题
titles = driver.find_elements_by_class_name('PostListItem-title')
print(len(titles))


j = 1
xpath_1 = '//*[@id="react-root"]/div/div/div[3]/div[2]/div[2]/ul/li['
xpath_2 = ']/div/div/a'
while(j <= 17):                                                              #专栏文章数量

    # 通过 xpath 找到所有文章的url
    xpath = xpath_1 + str(j) + xpath_2
    url = driver.find_element_by_xpath(xpath).get_property('href')

    # 打印信息
    print url + titles[j-1].text
    j += 1

  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值