爬虫
爬虫学习笔记
凌桓丶
现腾讯边缘存储研发工程师,前字节跳动流式计算研发工程师、CSDN博客专家。
展开
-
python爬虫 爬取bilibili新番榜
这里用到的模块是request模块和beautifulsoup首先我们需要打开Bilibili新番榜的审查元素通过观察可以发现每一个动漫的信息都分别存在了li标签下的rank-item类中而所有具体的信息都在里面的div标签下的info类中了解了所在位置就可以开始编写代码首先设置代理及user-agent,然后下载页面上的内容,以text的格式返回def get_html(url...原创 2020-02-11 22:03:26 · 2477 阅读 · 2 评论 -
python爬虫 隐藏身份及设置代理
User-Agent当我们使用爬虫访问各大网站时,可能会被网站发现访问者只是一段python写出的代码,从而拒绝我们的访问,如果想要解决这个问题,我们可以去修改user-agent。首先,我们需要打开我们的浏览器,通过审查元素找到我们的user-agent一般通过一下两种方法来添加1.add_headers方法 req = request.Request(url) req.add_he...原创 2020-02-09 22:51:37 · 1615 阅读 · 0 评论 -
python爬虫 爬取有道翻译详解
这里我们使用python的urllib来实现首先,我们需要找到我们进行翻译时上传给服务器的数据。我们可以通过查找审查元素中的Network这一栏目下,选择执行Post方法的选项。在General下的Request URL就是我们访问的链接url = 'http://fanyi.youdao.com/translate?smartresult=dict&smartresult=r...原创 2020-02-08 16:25:52 · 3227 阅读 · 5 评论