爬虫
文章平均质量分 72
To_Young
这个作者很懒,什么都没留下…
展开
-
python3爬虫(五)--requests库的基本使用
前言前面几篇学习了,urllib的这个库,这个库用起来有点麻烦,发送请求,添加header等等,这篇来介绍下requests这个库,Requests是用python语言基于urllib编写的,采用的是Apache2 Licensed开源协议的HTTP库,Requests它会比urllib更加方便,可以节约我们大量的工作。安装pip install requests例子先看一个简单的小例...原创 2019-06-06 00:11:01 · 3163 阅读 · 0 评论 -
python3爬虫七--了解Beautiful Soup 4
Beautiful Soup 4简介Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间.Beautiful Soup 3 目前已经停止开发,推荐使用Beautiful Soup 4 详情查看 官方文档安装如果你用的是新版的D...原创 2019-06-13 23:26:51 · 230 阅读 · 0 评论 -
python3爬虫(六)--requests的高级操作
文件上传import requestsurl = "http://httpbin.org/post"files = {'files':open("alipay.png",'rb')}response = requests.post(url,files=files)print(response.text)结果:获取cookieimport requestsurl = "http...原创 2019-06-09 13:46:04 · 517 阅读 · 0 评论 -
python爬虫实例(二)--爬取猫眼电影最受期待排行榜
前言这次使用的还是requests+beautifulsoup这两个库,方法也可之前 爬取酷狗TOP500音乐信息一样,分析链接,然后分析网页结构。抓取电影的 排名,片名,上映时间,主演分析链接https://maoyan.com/board/6 这个链接就是猫眼最受期待电影排行榜,这个跟酷狗不一样这个有翻页,可以很快的观察出每一的链接,一共5页。我们可以先点击第二页观察连接:https...原创 2019-06-19 23:32:41 · 1168 阅读 · 0 评论 -
Python3爬虫(四)--User Agent与代理IP的使用
为什么要使用User Agent这个User Agent在系列文章第二篇中有简单的说过,今天详细说明一下很多网站不喜欢被爬虫程序访问,所以会设置关卡阻止爬虫程序的访问,如过对方服务器检查到访问者是爬虫程序,也就是非人为点击访问的,就不会让你继续访问。此时通过设置User Agent来达到隐藏身份的目的,User Agent简称UA。User Agent储存在headers中,服务器通过检测h...原创 2019-06-04 21:12:08 · 4316 阅读 · 0 评论 -
python3爬虫(八)--BeautifulSoup4的基本使用
如何使用将一段文档传入BeautifulSoup 的构造方法,就能得到一个文档的对象, 可以传入一段字符串或一个文件句柄.from bs4 import BeautifulSoupsoup = BeautifulSoup(open("index.html"))soup1 = BeautifulSoup("<html>data</html>")print(soup)...原创 2019-06-17 13:23:08 · 590 阅读 · 0 评论 -
python3爬虫实例(一)---爬取酷狗TOP500的音乐信息
前言学习完requests库与beautifulsoup这个库后,我们就可来搞一个简单的爬虫了,这次我们爬取酷狗音乐的TOP500的歌曲信息,包含排名,歌名,歌曲时长。分分钟爬取下来。分析URL链接http://www.kugou.com/yy/rank/home/1-8888.html , 这个是酷狗TOP500歌曲信息页面,我们发现这里并不能翻页,一页只能显示,22首歌曲,如果我们直接...原创 2019-06-17 17:19:40 · 5532 阅读 · 1 评论