Python-爬取知乎热搜榜单信息

最新推荐文章于 2023-10-30 21:19:34 发布

努力搬砖的giser

最新推荐文章于 2023-10-30 21:19:34 发布

阅读量2k

点赞数 2

分类专栏：爬虫 Python

本文链接：https://blog.csdn.net/qq_41441896/article/details/106087622

版权

Python 同时被 2 个专栏收录

19 篇文章 8 订阅

订阅专栏

爬虫

6 篇文章 3 订阅

订阅专栏

Python-爬取知乎热搜榜单信息（request、selenium两种方式）

对于selenium的介绍，在我之前的文章中就已经说过了，不再赘述。这里主要是通过正则表达式的方式来拿到节点中的信息，下面展示下代码和效果图。

爬虫地址

https://www.zhihu.com/billboard

成果预览

实现代码1-request库

# -*- coding: utf-8 -*-

"""
@File    : request200512_知乎热搜榜.py
@Author  : fungis@163.com
@Time    : 2020/03/07 17:41
@notice  : 爬取知乎热搜榜列表&热度&链接
"""

import re
import requests
import datetime
import pandas as pd
from fake_useragent import UserAgent

Domain_Name = 'https:'
headers = {
    'User-Agent': UserAgent().random,
    'Referer': "https://www.zhihu.com/billboard"
}

url = 'https://www.zhihu.com/billboard'

response = requests.get(url, headers=headers)

html = response.text
print('----------------分割线----------------')

# 这里通过正则来解析页面
content = re.findall(r'<div class="HotList-itemTitle">([\s\S]+?)</div>', html, re.M)  # 获取问题内容
hot = re.findall(r'<div class="HotList-itemMetrics">([\s\S]+?)</div>', html, re.M)  # 获取问题热度
url = re.findall(r'"link":{"url":"([\s\S]+?)"}},', html, re.M)  # 获取问题超链接
describe = re.findall(r'"excerptArea":{"text":"([\s\S]+?)"},', html, re.M)  # 获取问题超链接

dts = []
for i in range(len(content)):
    lst = []
    lst.append(content[i])
    lst.append(hot[i])
    lst.append(str(url[i]).replace('u002F', ''))
    dts.append(lst)
df = pd.DataFrame(dts, columns=['问题名称', '问题热度', '链接'])
df.to_excel('./zhihu热搜榜' + str(datetime.datetime.now().strftime('%Y%m%d')) + '.xlsx',
            encoding='gbk')  # 写入excel中
print('爬取完成')

实现代码-selenium库

# -*- coding: utf-8 -*-

"""
@File    : selenium200512_知乎热搜榜.py
@Author  : fungis@163.com
@Time    : 2020/03/07 17:41
@notice  : 爬取知乎热搜榜列表&热度&链接
"""

import re
import time
import datetime
import pandas as pd
from selenium import webdriver

driver = webdriver.Chrome()
driver.get('https://www.zhihu.com/billboard')

print('当前页面标题：' + driver.title)
print('当前页面地址：' + driver.current_url)
print('----------------分割线----------------')

html = driver.page_source

# dataList = html.xpath('//div[@class="HotList-itemTitle"]/text()')#获取问题内容

# 这里通过正则来解析页面
content = re.findall(r'<div class="HotList-itemTitle">([\s\S]+?)</div>', html, re.M)  # 获取问题内容
hot = re.findall(r'<div class="HotList-itemMetrics">([\s\S]+?)</div>', html, re.M)  # 获取问题热度
url = re.findall(r'"link":{"url":"([\s\S]+?)"}},', html, re.M)  # 获取问题超链接
describe = re.findall(r'"excerptArea":{"text":"([\s\S]+?)"},', html, re.M)  # 获取问题超链接

time.sleep(1)  # 操作暂停一秒
driver.close()  # 关闭浏览器

dts = []
for i in range(len(content)):
    lst = []
    lst.append(content[i])
    lst.append(hot[i])
    lst.append(str(url[i]).replace('u002F', ''))
    dts.append(lst)
df = pd.DataFrame(dts, columns=['问题名称', '问题热度', '链接'])
df.to_excel('./zhihu-hotkeyData' + str(datetime.datetime.now().strftime('%Y%m%d')) + '.xlsx',
            encoding='gbk')  # 写入excel中
print('爬取完成')

结尾
喜欢的朋友们可以点个关注，后续将持续更新，精彩无限^ - ^

努力搬砖的giser

关注

2
点赞
踩
25

收藏

觉得还不错? 一键收藏
11
评论
Python-爬取知乎热搜榜单信息

Python-selenium-获取知乎热搜榜单相关信息对于selenium的介绍，在我之前的文章中就已经说过了，这里不再赘述，这里主要是通过正则表达式的方式来拿到节点中的信息，下面展示下代码和效果图。爬虫地址https://www.zhihu.com/billboard成果预览实现代码# -*- coding: utf-8 -*-"""@File : selenium200512_知乎热搜榜.py@Author : fungis@163.com@Time
复制链接

扫一扫