Python爬取热门微博评论--问题与解决（1）

最新推荐文章于 2024-04-16 15:26:40 发布

大院子的水

最新推荐文章于 2024-04-16 15:26:40 发布

阅读量1.6k

点赞数 1

分类专栏：学习日志文章标签： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/dayuanzideshui/article/details/116121948

版权

本文记录了使用Python 3.7.6爬取热门微博评论时遇到的问题，包括User-agent和Cookie的获取、DNT含义、语法错误、正则表达式使用、数据清洗等，并提供了相应的解决方法。通过这些问题的解决，作者旨在深化对Python爬虫的理解和应用。

摘要由CSDN通过智能技术生成

目录

问题1：User-agent,Cookie怎么获取

问题2：DNT：1代表什么意思

问题3：各种错误

问题4：一些符号的认知

问题5：re的某些参数、函数使用

问题6：数据爬取的不必要部分删除（re）--去除文本中的html标签

问题7：运行中的小问题

前言

毕业论文需要对热门微博的评论做情绪分析，第一步就是将其爬取下来。以下是学习使用Python爬取热门微博评论时遇到的问题以及解决措施，希望通过纪录这一过程，能使自己对Python爬取有更深的了解并且更加得心应手。

使用Python 3.7.6，开发环境是awaconda spyder。

问题

问题1：User-agent,Cookie怎么获取

2021/4/25

解决：

目前使用的是360浏览器，似乎大家用Google Chrome、Firefox比较多。

1.以要爬取的微博评论页面为例，点击右键选择审查元素，或者fn+f12；（注意：360浏览器应处于兼容模式）

2.点击网络、文档，并刷新原页面；

3.点击出现的文档，即可看到User-agent,Cookie。

问题解决！！！

问题2：DNT：1代表什么意思

2021/4/25

解决：

DNT: 1　＃Ｄｏ　ｎｏｔ　ｔｒａｃｋ　禁止跟踪，等于１不跟踪，等于０，可以跟踪。

我的http请求报文里没有这个参数，目前不知道为什么。

问题3：各种错误

2021/4/25

1.invalid syntax错误

解决：

格式问题，1.中英文标点符号混用；2.缩进不对称；3符号没写全（比如说括号只写一边）

注意：错误不一定是发生在标错的这一行，而可能是上一行代码没打逗号

2.expected an indented block错误

解决：

expected an indented block翻译为：应为缩进块。

python中没有像C语言使用{}来表示从属关系，而是使用缩进表示上下级关系。

表现在两个方面，1. 冒号后面是要写上一定的内容的（比如for循环后缺少内容）；2.缩进不规范，少些或多些了一个空格。

问题4：一些符号的认知

2021/4/25

/t

\t ：代表着四个空格也就是一个tab

问题5：re的某些参数、函数使用

最低0.47元/天解锁文章

大院子的水

关注

1
点赞
踩
8

收藏

觉得还不错? 一键收藏
1
评论
Python爬取热门微博评论--问题与解决（1）

目录前言问题问题1：User-agent,Cookie怎么获取前言毕业论文需要对热门微博的评论做情绪分析，第一步就是将其爬取下来。以下是学习使用Python爬取热门微博评论时遇到的问题以及解决措施，希望通过纪录这一过程，能使自己对Python爬取有更深的了解并且更加得心应手。使用Python 3.7.6，开发环境是awaconda spyder。问题问题1：User-agent,Cookie怎么获取2021/4/25解决：目前使用的是360浏览器，似乎大家用.
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。