用python爬取微博热搜_requests模块爬取微博热搜榜

最新推荐文章于 2021-11-03 21:36:18 发布

weixin_39631649

最新推荐文章于 2021-11-03 21:36:18 发布

阅读量1k

点赞数

文章标签：用python爬取微博热搜

本文链接：https://blog.csdn.net/weixin_39631649/article/details/111451649

版权

本文介绍了如何使用Python的requests和lxml库爬取微博热搜榜的数据。通过设置User-Agent，请求微博热搜页面，解析HTML内容，提取热搜排名、话题和热度，并将结果保存到文本文件中。代码中特别处理了置顶热搜，避免在循环中被遍历。

摘要由CSDN通过智能技术生成

import requests

from lxml import etree

import datetime

if __name__=='__main__':

headers = {

'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) \

Chrome/84.0.4147.125 Safari/537.36 Edg/84.0.522.59'

}

url='https://s.weibo.com/top/summary?Refer=top_hot&topnav=1&wvr=6'

page_text=requests.get(url=url,headers=headers).text

tree=etree.HTML(page_text)

list=tree.xpath('//div[@class="data"]//tbody/tr')

fp = open('微博热搜.txt', 'w')

now_time = datetime.datetime.now().strftime('%F %A %H:%M:%S') + '\n' # 获取当前时间

fp.write(now_time) # 在开头写入热搜时间

# 微博热搜页面的源代码还包括一个置顶热搜，它的标签包含结构和其他的50个不同，因此需要单独考虑(空列表)

''&#

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_39631649

关注关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
用python爬取微博热搜_requests模块爬取微博热搜榜

import requestsfrom lxml import etreeimport datetimeif __name__=='__main__':headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) \Chrome/84.0.4147...
复制链接

扫一扫

Python爬取微博热搜

Python学习Q群696455390

08-12

891

Python是一种跨平台的计算机程序设计语言。其是一个高层次的结合了解释性、编译性、互动性和面向对象的脚本语言。最初被设计用于编写自动化脚本(shell)，随着版本的不断更新和语言新功能的添加，越多被用于独立的、大型项目的开发。很多人学习python，不知道从何学起。很多人学习python，掌握了基本语法过后，不知道在哪里寻找案例上手。很多已经做案例的人，却不知道如何去学习更加高深的知识。那么针对这三类人，我给大家提供一个好的学习平台，免费领取视频教程，电子书籍，以及课程的源代码..

python 使用requests第三方库自动登陆新浪微博

Win_Man的专栏

02-10

5726

学习python的最初原因就是写爬虫，最近一直在写爬虫。感觉写爬虫的时候主要问题就是四个：页面分析，网站登录，反反爬虫，多线程并发。四个问题难度依次递增。刚开始的时候觉得页面分析挺没有头绪的，但是写过几次之后就有了套路，对页面中的自己感兴趣的内容的抓取也变得得心应手了。其次就是网站登录，这是写爬虫一定会遇到的问题，因为有些网站需要用户登录之后才可以查看，所以需要去分析网站的登录机制。难点在于，虽然

参与评论您还未登录，请先登录后发表或查看评论

python 爬虫热搜_Python网络爬虫-爬取微博热搜

weixin_39758953的博客

12-03

456

微博热搜的爬取较为简单，我只是用了lxml和requests两个库1.分析网页的源代码：右键--查看网页源代码.从网页代码中可以获取到信息(1)热搜的名字都在的子节点里(2)热搜的排名都在的里(注意置顶微博是没有排名的！)(3)热搜的访问量都在的子节点里2.requests获取网页(1)先设置url地址，然后模拟浏览器(这一步可以不用)防止被认出是爬虫程序。###网址url="https://s....

requests模块爬取微博热搜榜

weixin_49159287的博客

08-21

770

爬取微博热搜榜作为爬虫新手，这是一个练手项目，水平有限，仅供参考，欢迎交流此代码基于requests包和lxml包编写，同时可以查看爬取热搜时间。因为水平有限，暂时还未想到置顶热搜写入txt办法。 import requests from lxml import etree import datetime if __name__=='__main__': headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win

Python爬虫与信息提取（五）爬虫实例：爬取新浪微博热搜排名

CC_且听风吟丶的博客

01-28

6486

经过一段时间的Python网络爬虫学习，今天自己摸索制作了一个能够爬取新浪微博实时热搜排名的小爬虫 1.效果： 2.制作过程中遇到的问题：（1）一开始研究微博热搜页面的源代码时忽略了<tbody>中还包括一个置顶热搜，它的标签包含结构和其他的50个不同，因此需要单独考虑（2）难点是标签中信息的获取，需要搞清楚 find_all( ) 函数返回的是列表，只能用于for遍历体系...

Python、requests模块使用代理服务器实现微博访问

qq_31518899的博客

08-17

1045

Python3.6.1 requests2.18.4 开发工具sublime text 3，scrapy，beautifulsoup （此微博为博主原创，如果有想转载的同学请注明原博客链接，谢谢合作）首先声明，此微博只为演示。（刷博客的访问量是可耻的行为，也是我们很反感的行为，不知道你信不信，反正我信了） 1、先用scrapy框架，从网站上爬取IP作为使用的IP池，并存入ip_l

Python微博热搜榜信息爬取项目.zip

06-03

总之，这个Python微博热搜榜信息爬取项目涵盖了Python网络爬虫的基本流程，包括HTTP请求、HTML解析、数据提取、数据库操作等核心技能，同时也涉及到错误处理和反爬策略，对于提升你的Python爬虫技术和数据分析能力...

新浪微博爬虫，用python爬取新浪微博数据，并下载微博图片和微博视频.zip

热门推荐

u010496857的博客

04-03

1万+

一直想学习用Python来进行数据的爬取，也一直想知道Python连接数据库的操作，今天刚好看到的这篇文章满足了这两个条件，我试着爬了下微博，并成功将数据添加到数据库中，颇为欢喜。作者写的很简单，有些过程省略掉了，因此我尝试了好几次才成功，接下来记录自己的成功操作。一、选择需要爬取的网页这里是用来爬取微博热搜榜的数据，网页地址为http://s.weibo.com/top/summary，打开网页...

python爬取微博用户信息（四）—— 爬取用户信息的功能函数

D77的博客

12-11

4137

这一节，将会将MicroBlog.py文件中的函数介绍一下。目录一、导入包二、初始化三、函数及其函数功能 1、get_microblog_info() ——获取微博信息 2、get_user_info() —— 获取用户昵称、微博数、关注数、粉丝数 3、get_nickname() —— 获取用户昵称 4、get_page_num() —— 获取微博总页数 5、get_one_page() —— 获取第page页的全部微博 6、get_one_microblog() ——...

python3爬虫登录微博(requests)

weixin_46277390的博客

07-01

2956

一、简介小白一枚，如有不足，请不吝赐教。本文总体架构和站内大佬的的差不太多，登录过程总共分为三个阶段:预登录，登录和最后的跳转登录。不过我查看站内大佬的资源以及github上的资源时发现，时间都是比较久远的了，对于现在的微博反爬技术稍稍有一点不足，比如现在登录需要特殊验证渠道去实现：扫码验证、微博内点击验证以及短信验证。鄙人都实现了，其实原理都差不多，因此我就发了这个相对于而言验证操作比较简单的来作为例子讲解。二、过程分析 2.1 预登录当我...

【Python爬虫】requests爬取新浪微博评论代码

一个甜甜的大橙子的博客

04-23

7767

环境：WIN10+Python3.6 # 完整爬取微博评论程序，只需要修改微博id即可 import requests import json import re #爬取微博评论写入weibo_comment.txt def get_comment(weibo_id, url, headers, number): count = 0 fp = open("weibo_comme...

requests爬取微博

a2639491403的博客

08-01

2468

微博地址：蒋方舟微博用到技术：requests+pyquery 分析页面通过对比url发现，似乎只需要改变page就能完成翻页尝试把page=3放上去得到了如下内容,json序列化点开调试工具的preview就能看到json反序列化得来全不费工夫，里面包含了我们需要的所有内容接着我们需要构造URL，requests中自带一个params（）方法...

如何利用request和正则表达式获取微博热搜榜

lujianlujian520的博客

07-03

590

其实这个是很简单的，网上有很多教程，虽然说微博热搜榜是动态数据，但是数据存储确实可以通过HTML来获取 https://s.weibo.com/top/summary?Refer=top_hot&topnav=1&wvr=6 注意微博是每分钟都跟新的，因此上一分组和下一分钟数据可能不完全相同 import re import requests from requests.exc...

合工大-python作业-爬虫爬取微博热搜

qq_58754996的博客

11-03

847

请使用 requests 库或者其他库，爬取微博热搜榜数据，时间段自拟，并可视化爬取内容，可视化形式自拟。 import os import requests from bs4 import BeautifulSoup #爬虫头数据 cookies = { 'SINAGLOBAL': '6797875236621.702.1603159218040', 'SUB': '_2AkMXbqMSf8NxqwJRmfkTzmnhboh1ygvEieKhMlLJJRMxHRl-yT9jqm

用Python爬取微博热搜

08-05

要用Python爬取微博热搜，可以使用第三方库beautifulsoup和requests。首先，需要安装这两个库，并导入它们。 ``` pip install beautifulsoup4 pip install requests ``` 然后，导入需要的模块： ```python import...