![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
python爬虫
时光机丶
伪文艺理工男
展开
-
Python 3爬虫网易云(一)—— Requests库用法
写在最前面!!!本文只适合小白看,大牛就不用围观了,非要围观的也请槽点轻吐爬虫的基本流程发起请求通过HTTP库向目标站点发起请求,也就是发送一个Request,请求可以包含额外的header等信息,等待服务器响应获取响应内容如果服务器能正常响应,会得到一个Response,Response的内容便是所要获取的页面内容,类型可能是HTML,Json字符串,二进制数据(图片或者视频)等类型解析原创 2017-09-13 13:44:49 · 1731 阅读 · 1 评论 -
Python 3爬虫网易云(十)—— 爬取歌词读入文件存储
基于上一篇的介绍,想必大家都学会了如何爬取一位歌手的热门50首歌的歌词了,但是输出的结果在命令行里面,可能我们希望能不能将爬取的歌词内容保存为文本格式并存储起来呢,那么今天我们介绍如何将爬取的内容作为一个文本保存。 先将我们上一篇爬取热门50首歌的代码写上import requestsimport jsonimport refrom bs4 import BeautifulSoupdef d原创 2017-10-01 00:39:22 · 3351 阅读 · 1 评论 -
Python 3爬虫网易云(九)—— 获取一个歌手的热门50首歌词
上一篇已经介绍了如何获取一首歌的歌词,今天那就介绍一下如何通过一个歌手的id获取他的热门50首的歌词吧。1.找入口要爬取一位歌手的歌曲,首先在网易云中要获得歌曲的id,在这推荐用火狐浏览器,其中的firebug插件对网页的解析很有帮助。 这里以爬取陈奕迅的热门50首为例。 我们会发现歌曲的id是包含在a标签中的href中的那么可能大家有人会想直接把网页源码下载下来,然后用BeautifulSou原创 2017-09-27 09:51:09 · 4742 阅读 · 6 评论 -
Python 3爬虫网易云(八)—— 对网易云歌词的爬取
今天开始正式的网易云爬虫的实战吧,今天先做一个非常简单的小例子,但是稍微有一点小弯绕。在这之前,想必大家也用爬虫爬过妹子图和百度贴吧入门爬虫了。 好,那么先打开网易云中的一首歌(这里以火狐浏览器为例)分析网页内容,找到入口根据以往的经验,大家可能首先会想到直接把这个网页的源码下载下来,然后再提取出其中的歌词就可以了。这种方法在我们处理百度贴吧的帖子或者百科里的段子都是十分简单方便有效的,但是当你用原创 2017-09-26 13:40:59 · 5720 阅读 · 3 评论 -
Python 3爬虫网易云(七)—— JSON简介与解析
今天本来打算做网易云简单的歌词爬取的,后来发现需要用到一些json库的知识。所以,先给大家介绍一下Python中json库的数据解析和基本操作。(一)什么是json:JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式。易于人阅读和编写。同时也易于机器解析和生成。它基于JavaScript Programming Language, Standard ECMA原创 2017-09-25 19:03:46 · 1174 阅读 · 1 评论 -
Python 3爬虫网易云(六)—— 第三方库安装
鉴于爬虫需要用到很多第三方库,其中有些库需要依赖很多其他的第三方库,所以今天发一篇博主在网络上汇集的Python第三方库的安装方法吧 第一种基本安装方法 1 下载第三方包,解压 2 在命令提示符里输入cmd,然后用cd进入到第三方包的路径下 3 输入python setup.py build 4 输入python setup.py install 看到包内的文件在安装即可……第二种 用p转载 2017-09-25 07:33:55 · 702 阅读 · 0 评论 -
Python 3爬虫网易云(五)—— 正则表达式下篇之HTML标签
上篇详细介绍了一下正则表达式的常用知识点。这一篇我们开启正则表达式里的search()方法和一些其他的方法。search()我们在前一篇提到过match()方法是从字符串的开头开始匹配,一旦开头不匹配,那么整个匹配就失败了。我们看下面的例子:import recontent = 'Extra stings Hello 1234567 World_This is a Regex Demo Extra原创 2017-09-18 13:16:07 · 1808 阅读 · 0 评论 -
Python 3爬虫网易云(四)—— 正则表达式上篇之匹配法则
学完Request库的BeautifulSoup库的基本用法后,现在有必要学习一下正则表达式才能更好的解决自己遇到的爬虫问题,当然如果会Selenium基于自动化测试爬虫、BeautifulSoup分析网页DOM节点,这就更方便了,但本文更多的是介绍基于正则的底层爬取分析。那些再后续的文章中会提到啦。 详细的正则表达式可以戳: 这里写链接内容正则表达式首先,我们用一个小小的实例来了解认识正则表达原创 2017-09-17 09:35:47 · 868 阅读 · 0 评论 -
Python 3爬虫网易云(三)—— BeautifulSoup库用法下篇
上一篇演示了使用BeautifulSoup解析网页的HTML数据。今天演示如何使用BeautifulSoup模块来遍历HTML数据并提取我们想要的数据。BeautifulSoup遍历方法1>节点和标签名 可以使用子节点、父节点、 及标签名的方式遍历:print(soup.title) #查找title标签print(soup.a) #查找第一个a标签#对标签的直接子节点进行循环title_t原创 2017-09-15 15:30:59 · 612 阅读 · 0 评论 -
Python 3爬虫网易云(二)—— BeautifulSoup库用法上篇
写在前面上一篇演示了如何使用requests模块向网站发送http请求,获取到网页的HTML数据。这篇来演示如何使用BeautifulSoup模块来从HTML文本中提取我们想要的数据。运行环境我的运行环境如下:系统版本:Windows10。Python版本:Python3.6 IDE:PycharmBeautifulSoup ——解析html文档首先原创 2017-09-14 11:39:18 · 640 阅读 · 0 评论