Python爬取热门微博评论--问题与解决(1)

目录

前言

问题

问题1:User-agent,Cookie怎么获取

问题2:DNT:1代表什么意思

问题3:各种错误

问题4:一些符号的认知

问题5:re的某些参数、函数使用

问题6:数据爬取的不必要部分删除(re)--去除文本中的html标签

问题7:运行中的小问题

阶段总结


 

前言

毕业论文需要对热门微博的评论做情绪分析,第一步就是将其爬取下来。以下是学习使用Python爬取热门微博评论时遇到的问题以及解决措施,希望通过纪录这一过程,能使自己对Python爬取有更深的了解并且更加得心应手。

使用Python 3.7.6,开发环境是awaconda spyder。

问题


问题1:User-agent,Cookie怎么获取

2021/4/25

解决:

目前使用的是360浏览器,似乎大家用Google Chrome、Firefox比较多。

1.以要爬取的微博评论页面为例,点击右键选择审查元素,或者fn+f12;(注意:360浏览器应处于兼容模式)

2.点击网络、文档,并刷新原页面;

3.点击出现的文档,即可看到User-agent,Cookie。

问题解决!!!


问题2:DNT:1代表什么意思

2021/4/25

解决:

DNT: 1 #Do not track 禁止跟踪,等于1不跟踪,等于0,可以跟踪。 

我的http请求报文里没有这个参数,目前不知道为什么。


问题3:各种错误

2021/4/25

1.invalid syntax错误

解决:

格式问题,1.中英文标点符号混用;2.缩进不对称;3符号没写全(比如说括号只写一边)

注意:错误不一定是发生在标错的这一行,而可能是上一行代码没打逗号

2.expected an indented block错误

解决:

expected an indented block翻译为:应为缩进块。

python中没有像C语言使用{}来表示从属关系,而是使用缩进表示上下级关系。

表现在两个方面,1. 冒号后面是要写上一定的内容的(比如for循环后缺少内容);2.缩进不规范,少些或多些了一个空格。


问题4:一些符号的认知

2021/4/25


                
  • 1
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值