Python爬虫入门教程:超级简单的Python爬虫教程_data = { ‘a‘ ‘网络爬虫‘, ‘b‘ ‘python教程‘ }什么意思

最后

不知道你们用的什么环境,我一般都是用的Python3.6环境和pycharm解释器,没有软件,或者没有资料,没人解答问题,都可以免费领取(包括今天的代码),过几天我还会做个视频教程出来,有需要也可以领取~

给大家准备的学习资料包括但不限于:

Python 环境、pycharm编辑器/永久激活/翻译插件

python 零基础视频教程

Python 界面开发实战教程

Python 爬虫实战教程

Python 数据分析实战教程

python 游戏开发实战教程

Python 电子书100本

Python 学习路线规划

网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。

需要这份系统化学习资料的朋友,可以戳这里获取

一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!

表示段落

  • 表示列表
    …表示图片

表示标题
…表示超链接

CSS

CSS 表示样式,图 1 中第 13 行<style type="text/css">表示下面引用一个 CSS,在 CSS 中定义了外观。

JScript

JScript 表示功能。交互的内容和各种特效都在 JScript 中,JScript 描述了网站中的各种功能。

如果用人体来比喻,HTML 是人的骨架,并且定义了人的嘴巴、眼睛、耳朵等要长在哪里。CSS 是人的外观细节,如嘴巴长什么样子,眼睛是双眼皮还是单眼皮,是大眼睛还是小眼睛,皮肤是黑色的还是白色的等。JScript 表示人的技能,例如跳舞、唱歌或者演奏乐器等。

写一个简单的 HTML

通过编写和修改 HTML,可以更好地理解 HTML。首先打开一个记事本,然后输入下面的内容:

Python 3 爬虫与数据清洗入门与实战

Python 3爬虫与数据清洗入门与实战

+ [爬虫]( )
+ 数据清洗

输入代码后,保存记事本,然后修改文件名和后缀名为"HTML.html";

运行该文件后的效果,如图 2 所示。
动图封面
图 2

这段代码只是用到了 HTML,读者可以自行修改代码中的中文,然后观察其变化。

关于爬虫的合法性

几乎每一个网站都有一个名为 robots.txt 的文档,当然也有部分网站没有设定 robots.txt。对于没有设定 robots.txt 的网站可以通过网络爬虫获取没有口令加密的数据,也就是该网站所有页面数据都可以爬取。如果网站有 robots.txt 文档,就要判断是否有禁止访客获取的数据。

以淘宝网为例,在浏览器中访问https://www.taobao.com/robots.txt,如图 3 所示。
动图封面
图 3 淘宝网的robots.txt文件内容

淘宝网允许部分爬虫访问它的部分路径,而对于没有得到允许的用户,则全部禁止爬取,代码如下:

User-Agent:*
Disallow:/

这一句代码的意思是除前面指定的爬虫外,不允许其他爬虫爬取任何数据。

使用 requests 库请求网站

安装 requests 库

首先在 PyCharm 中安装 requests 库,为此打开 PyCharm,单击“File”(文件)菜单,选择“Setting for New Projects…”命令,如图 4 所示。
在这里插入图片描述
图 4

选择“Project Interpreter”(项目编译器)命令,确认当前选择的编译器,然后单击右上角的加号,如图 5 所示。
img
图 5

在搜索框输入:requests(注意,一定要输入完整,不然容易出错),然后单击左下角的“Install Package”(安装库)按钮。如图 6 所示:
img

图 6

安装完成后,会在 Install Package 上显示“Package‘requests’ installed successfully”(库的请求已成功安装),如图 7 所示;如果安装不成功将会显示提示信息。
img
图 7 安装成功

爬虫的基本原理

网页请求的过程分为两个环节:

1. Request (请求):每一个展示在用户面前的网页都必须经过这一步,也就是向服务器发送访问请求。
2. Response(响应):服务器在接收到用户的请求后,会验证请求的有效性,然后向用户(客户端)发送响应的内容,客户端接收服务器响应的内容,将内容展示出来,就是我们所熟悉的网页请求,如图 8 所示。  
 ![动图封面](https://img-blog.csdnimg.cn/img_convert/d31a58ec2d47363d73246442e7cb44a6.jpeg)  
 图 8 Response相应网页请求的方式也分为两种:


1. GET:最常见的方式,一般用于获取或者查询资源信息,也是大多数网站使用的方式,响应速度快。
2. POST:相比 GET 方式,多了以表单形式上传参数的功能,因此除查询信息外,还可以修改信息。所以,在写爬虫前要先确定向谁发送请求,用什么方式发送。
使用 GET 方式抓取数据

复制任意一条首页首条新闻的标题,在源码页面按【Ctrl+F】组合键调出搜索框,将标题粘贴在搜索框中,然后按【Enter】键。

如图 8 所示,标题可以在源码中搜索到,请求对象是http://www.cntour.cn,请求方式是GET(所有在源码中的数据请求方式都是GET),如图 9 所示。
img
图 9

确定好请求对象和方式后,在 PyCharm 中输入以下代码:

1. import requests #导入requests包
2. url = ‘[http://www.cntour.cn/]( )’
3. strhtml = requests.get(url) #Get方式获取网页数据
4. **print**(strhtml.text)运行结果如图 10 所示:  

img
图 10 运行结果效果图

加载库使用的语句是 import+库的名字。在上述过程中,加载 requests 库的语句是:import requests。

用 GET 方式获取数据需要调用 requests 库中的 get 方法,使用方法是在 requests 后输入英文点号,如下所示:

requests.get

将获取到的数据存到 strhtml 变量中,代码如下:

strhtml = request.get(url)

这个时候 strhtml 是一个 URL 对象,它代表整个网页,但此时只需要网页中的源码,下面的语句表示网页源码:

strhtml.text

使用 POST 方式抓取数据

首先输入有道翻译的网址:http://fanyi.youdao.com/,进入有道翻译页面。

按快捷键 F12,进入开发者模式,单击 Network,此时内容为空,如图 11 所示:
动图封面
图 11

在有道翻译中输入“我爱中国”,单击“翻译”按钮,如图 12 所示:
动图封面
图 12

在开发者模式中,依次单击“Network”按钮和“XHR”按钮,找到翻译数据,如图 13 所示:
动图封面

图 13

单击 Headers,发现请求数据的方式为 POST。如图 14 所示:

动图封面

图 14

找到数据所在之处并且明确请求方式之后,接下来开始撰写爬虫。

首先,将 Headers 中的 URL 复制出来,并赋值给 url,代码如下:

url = ‘http://fanyi.youdao.com/translate_o?smartresult=dict&smartresult=rule

POST 的请求获取数据的方式不同于 GET,POST 请求数据必须构建请求头才可以。

Form Data 中的请求参数如图 15 所示:
动图封面
图 15

将其复制并构建一个新字典:

From_data={‘i’:‘我愛中國’,‘from’:‘zh-CHS’,‘to’:‘en’,‘smartresult’:‘dict’,‘client’:‘fanyideskweb’,‘salt’:‘15477056211258’,‘sign’:‘b3589f32c38bc9e3876a570b8a992604’,‘ts’:‘1547705621125’,‘bv’:‘b33a2f3f9d09bde064c9275bcb33d94e’,‘doctype’:‘json’,‘version’:‘2.1’,‘keyfrom’:‘fanyi.web’,‘action’:‘FY_BY_REALTIME’,‘typoResult’:‘false’}

接下来使用 requests.post 方法请求表单数据,代码如下:

import requests #导入requests包
response = requests.post(url,data=payload)

将字符串格式的数据转换成 JSON 格式数据,并根据数据结构,提取数据,并将翻译结果打印出来,代码如下:

1. import json
2. content = json.loads(response.text)
3. **print**(content[‘translateResult’][0][0][‘tgt’])使用 requests.post 方法抓取有道翻译结果的完整代码如下:


1. import requests #导入requests包
2. import json
3. **def** get\_translate\_date(word=None):
4. url = ‘[http://fanyi.youdao.com/translate\_o?smartresult=dict&smartresult=rule]( )’
5. From\_data={‘i’:word,‘from’:‘zh-CHS’,‘to’:‘en’,‘smartresult’:‘dict’,‘client’:‘fanyideskweb’,‘salt’:‘15477056211258’,‘sign’:‘b3589f32c38bc9e3876a570b8a992604’,‘ts’:‘1547705621125’,‘bv’:‘b33a2f3f9d09bde064c9275bcb33d94e’,‘doctype’:‘json’,‘version’:‘2.1’,‘keyfrom’:‘fanyi.web’,‘action’:‘FY\_BY\_REALTIME’,‘typoResult’:‘false’}
6. #请求表单数据
7. response = requests.post(url,data=From\_data)
8. #将Json格式字符串转字典
9. content = json.loads(response.text)
10. **print**(content)
11. #打印翻译后的数据
12. #print(content[‘translateResult’][0][0][‘tgt’])
13. **if** **name**==‘**main**’:
14. get\_translate\_date(‘我爱中国’)### 使用 Beautiful Soup 解析网页

通过 requests 库已经可以抓到网页源码,接下来要从源码中找到并提取数据。Beautiful Soup 是 python 的一个库,其最主要的功能是从网页中抓取数据。Beautiful Soup 目前已经被移植到 bs4 库中,也就是说在导入 Beautiful Soup 时需要先安装 bs4 库。

安装 bs4 库的方式如图 16 所示:
动图封面
图 16

安装好 bs4 库以后,还需安装 lxml 库。如果我们不安装 lxml 库,就会使用 Python 默认的解析器。尽管 Beautiful Soup 既支持 Python 标准库中的 HTML 解析器又支持一些第三方解析器,但是 lxml 库具有功能更加强大、速度更快的特点,因此笔者推荐安装 lxml 库。

安装 Python 第三方库后,输入下面的代码,即可开启 Beautiful Soup 之旅:

1. import requests #导入requests包
2. from bs4 import BeautifulSoup
3. url='[http://www.cntour.cn/]
4. strhtml=requests.get(url)
5. soup=BeautifulSoup(strhtml.text,‘lxml’)
6. data = soup.select(‘#main>div>div.mtop.firstMod.clearfix>div.centerBox>ul.newsList>li>a’)
7. **print**(data)代码运行结果如图 17 所示。  

在这里插入图片描述
图 17

Beautiful Soup 库能够轻松解析网页信息,它被集成在 bs4 库中,需要时可以从 bs4 库中调用。其表达语句如下:

from bs4 import BeautifulSoup

首先,HTML 文档将被转换成 Unicode 编码格式,然后 Beautiful Soup 选择最合适的解析器来解析这段文档,此处指定 lxml 解析器进行解析。解析后便将复杂的 HTML 文档转换成树形结构,并且每个节点都是 Python 对象。这里将解析后的文档存储到新建的变量 soup 中,代码如下:

soup=BeautifulSoup(strhtml.text,‘lxml’)

接下来用 select(选择器)定位数据,定位数据时需要使用浏览器的开发者模式,将鼠标光标停留在对应的数据位置并右击,然后在快捷菜单中选择“检查”命令,如图 18 所示:
动图封面
图 18

随后在浏览器右侧会弹出开发者界面,右侧高亮的代码(参见图 19(b))对应着左侧高亮的数据文本(参见图 19(a))。右击右侧高亮数据,在弹出的快捷菜单中选择“Copy”➔“Copy Selector”命令,便可以自动复制路径。
动图封面
图 19 复制路径

将路径粘贴在文档中,代码如下:

#main > div > div.mtop.firstMod.clearfix > div.centerBox > ul.newsList > li:nth-child(1) > a

由于这条路径是选中的第一条的路径,而我们需要获取所有的头条新闻,因此将 li:nth-child(1)中冒号(包含冒号)后面的部分删掉,代码如下:

在这里插入图片描述

感谢每一个认真阅读我文章的人,看着粉丝一路的上涨和关注,礼尚往来总是要有的:

① 2000多本Python电子书(主流和经典的书籍应该都有了)

② Python标准库资料(最全中文版)

③ 项目源码(四五十个有趣且经典的练手项目及源码)

④ Python基础入门、爬虫、web开发、大数据分析方面的视频(适合小白学习)

⑤ Python学习路线图(告别不入流的学习)

网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。

需要这份系统化学习资料的朋友,可以戳这里获取

一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!

  • 15
    点赞
  • 26
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值