目录
问题6:数据爬取的不必要部分删除(re)--去除文本中的html标签
前言
毕业论文需要对热门微博的评论做情绪分析,第一步就是将其爬取下来。以下是学习使用Python爬取热门微博评论时遇到的问题以及解决措施,希望通过纪录这一过程,能使自己对Python爬取有更深的了解并且更加得心应手。
使用Python 3.7.6,开发环境是awaconda spyder。
问题
问题1:User-agent,Cookie怎么获取
2021/4/25
解决:
目前使用的是360浏览器,似乎大家用Google Chrome、Firefox比较多。
1.以要爬取的微博评论页面为例,点击右键选择审查元素,或者fn+f12;(注意:360浏览器应处于兼容模式)
2.点击网络、文档,并刷新原页面;
3.点击出现的文档,即可看到User-agent,Cookie。
问题解决!!!
问题2:DNT:1代表什么意思
2021/4/25
解决:
DNT: 1 #Do not track 禁止跟踪,等于1不跟踪,等于0,可以跟踪。
我的http请求报文里没有这个参数,目前不知道为什么。
问题3:各种错误
2021/4/25
1.invalid syntax错误
解决:
格式问题,1.中英文标点符号混用;2.缩进不对称;3符号没写全(比如说括号只写一边)
注意:错误不一定是发生在标错的这一行,而可能是上一行代码没打逗号
2.expected an indented block错误
解决:
expected an indented block翻译为:应为缩进块。
python中没有像C语言使用{}来表示从属关系,而是使用缩进表示上下级关系。
表现在两个方面,1. 冒号后面是要写上一定的内容的(比如for循环后缺少内容);2.缩进不规范,少些或多些了一个空格。
问题4:一些符号的认知
2021/4/25
/t
\t :代表着四个空格也就是一个tab