爬虫
潜水猿
这个作者很懒,什么都没留下…
展开
-
Python爬取B站视频
今天有点闲,想着爬取一下哔哩哔哩的视频练练手.说干就干!打开B站,搜索"鸡你太美",大叔就是这么潮流,哈哈.废话不多说,吭哧吭哧开始肝.F12—>Network—>一无所获.在我的理解中,视频应该有个访问连接的呀,而且放在json格式的文件中,这样我们直接访问资源URL就可以下载到视频了呀.然而,并没有.接下里就是长达四五个小时的文献参考以及试错.在网上看到的都是从up主个人主页里下载视频的,和我的预期有些不符,所以我们就先看前辈们的资料吧.我们来到一个up主的个人中心,开始吭哧吭原创 2020-06-26 20:27:47 · 1603 阅读 · 0 评论 -
Linux上运行爬虫项目
在阿里云的Linux上安装了docker镜像,然后在docker镜像中运行爬虫项目首先要有项目.然后将项目文件放入docker镜像中然后就运行.问题一:docker镜像中的Python没有requests第三方库—>我就pip install requests结果又遇到没有 pip install—>然后就看怎么能装上pip install在docker环境中先输入wget --no-check-certificate https://bootstrap.pypa.io/g原创 2020-05-10 06:54:10 · 989 阅读 · 0 评论 -
正则表达式
再来占个坑原创 2020-04-29 15:38:57 · 102 阅读 · 0 评论 -
有道翻译--爬虫
爬虫基本流程目标网址user_agent身份验证请求头设置请求体数据发送请求并接收响应接收数据简单处理基本流程中遇到的问题1. 目标网址的获取在抓包工具中找到目标网址,或者在浏览器开发者工具中找到网址,不要找错了!2. 用户主机身份声明user_agent身份信息,这个比较简单3.请求头设置请求头内容用抓包工具可以获得4.请求体数据抓包工具中的body表单-...原创 2020-04-28 10:25:01 · 313 阅读 · 2 评论