python判断网业上文字_如何用python提取网页上的内容学习笔记

最新推荐文章于 2021-04-20 22:20:53 发布

weixin_39655377

最新推荐文章于 2021-04-20 22:20:53 发布

阅读量193

点赞数

文章标签： python判断网业上文字

小白，，完全不懂，初步学习笔记

教程：https://www.zhihu.com/question/413854335

爬虫的方法，其实就是用代码来伪装成浏览器，去访问对应的url，然后获取到返回到的内容，这部分内容可以是网页源代码，图片，mp3，视频等，其实归根结底就是获取到url指向的在服务器里对应的文件内容，然后根据不同的文件类型来选择不同编码来解析。而在这基础上，则会有很多其他补充内容和技巧，比如反爬虫和规避反爬虫，获取验证码，获取JS实时生成的内容，甚至模拟键鼠操作等。

新手的话，可以先去看看小甲鱼的urllib3爬虫教程，然后可以接着学request库，beautifulsoup4，spicy(没记错的话好像是这个

另外验证码可以自己用深度学习框架Keras构建一个CNN网络模型来识别验证码。

教程：https://zhuanlan.zhihu.com/p/87321559

提取网页源代码——Requests 工具包

在我们提取网络信息之前，我们必须将网页的源代码进行提取，Requests工具包现在可以说是最好用和最普及的静态网页爬虫工具

Requests工具包的使用非常简单，最主要使用的函数为requests.get(url),其中参数url就是我们想提取源代码的网页，再通过requests.get(url).text将页面转换为字符串，就可以供我们使用了。

信息提取——Xpath

我们普通的网页一般都是XML文档格式，当我们想提取里面的内容时，我们需要借助Xpath来分解其中的格式

提取我们想要的内容。在了解Xpath之前我们需要知道四个基本概念：节点、元素、属性、文本。我们来看一个例子：

Harry Potter

J K. Rowling

2005

29.99

这就是一个网页的源码，其中是文档节点

J K. Rowling是元素节点， lang="en" 是属性节点。 J K. Rowling、2005和29.99是文本(文本通常就是我们想爬取的内容)。

实例分享——爬取豆瓣电影的信息

我们想爬取在豆瓣网上的电影《超时空同居》的导演和演员信息。

1.找到电影的url

image.png

查看网页源代码的时候，找了好多方法都不可以，右键查看，或者右键没有的话按ctrl+U就可以了

image.png

2.分析TML的格式了，例如我们要找到所有的主演：

image.png

主演:

雷佳音 /

佟丽娅 /

张衣 /

于和伟 /

王正佳 /

陶虹 /

李念 /

李光洁 /

杨玏 /

范明 /

徐峥 /

杨迪 /

方龄 /

陈昊

类型:

喜剧 /

爱情 /

奇幻

大家可以看到有一个普遍的规律：主演的名字所对应的节点名都为a，属性都为rel="v:starring"，像下面的那个类型的属性就不是rel="v:starring"，这样我们就可以很轻易的用xpath的语法定位到拥有这个元素的节点，然后将所有的结果找出。

导演:

rel="v:directedBy">苏伦

同理，导演的名字所对应的节点名为a，属性都为rel=" v:directedBy"，我们同样可以通过这个定位找到相应的文本：

具体的代码如下：

import requests

from lxml import etree

url='https://movie.douban.com/subject/27133303/?from=showing' #输入我们的url

get = requests.get(url).text # get(url) 得到我们的网页, text将源网页转化为字符串

selector = etree.HTML(get) # 将源码转换为xpath可以识别的TML格式

info = {} #字典用于储存信息

info['电影'] = selector.xpath('//title/text()')[0].strip() # 定位电影名字

info['导演']=selector.xpath('//a[@rel="v:directedBy"]/text()') # 定位导演名字

info['演员']=selector.xpath('//a[@rel="v:starring"]/text()') # 定位演员名字

print(info)

image.png

报错了，说没有xpath

改错，随意搜了一个header，因为有一个网站【Python】 requests 爬取博客园内容AttributeError: 'NoneType' object has no attribute 'xpath' - IT_小树 - 博客园 (cnblogs.com)

说可以找到header，但是我工作的这台电脑打开没有那个界面也懒得去找了，

直接改成下面这样

image.png

所以代码变成这样

url='https://movie.douban.com/subject/27133303/' #输入我们的url

header = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.130 Safari/537.36"}

get = requests.get(url,headers=header).text # get(url) 得到我们的网页, text将源网页转化为字符串

selector = etree.HTML(get) # 将源码转换为xpath可以识别的TML格式

成功了，

image.png

最后我们得到一个字典集的结果：

{'电影': '超时空同居 (豆瓣)', '导演': ['苏伦'], '演员': ['雷佳音', '佟丽娅',

'张衣', '于和伟', '王正佳', '陶虹', '李念', '李光洁', '杨玏', '范明', '徐峥',

'杨迪', '方龄', '陈昊']}

image.png

所以进行案例二的联系：

1.打开豆瓣的分类，假设想爬取这些电影的信息

image.png

2.进入开发者模式F12后刷新，打开其中的network

image.png

在点击xhr

image.png

双击图中给的网页

image.png

可能是因为没json插件的原因

接下来的教程是：

image.png

但是我的报错

image.png

补充headers

image.png

这次是打开XHR单击网址，点击header 往下找headers然后有一个

image.png

复制下来就好

但是这样我的解决失败了

image.png

查看格式后发现不是json的格式“”：“”

找到错误了

image.png

其实是因为我之前填的这个url不对，应该是双击之后出现的网页，也就是这个的网页

image.png

然后就成功啦、

最后总结一下所有的代码

import requests

from lxml import etree

url='https://movie.douban.com/subject/27133303/' #输入我们的url

header = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.130 Safari/537.36"}

get = requests.get(url,headers=header).text # get(url) 得到我们的网页, text将源网页转化为字符串

selector = etree.HTML(get) # 将源码转换为xpath可以识别的TML格式

info = {} #字典用于储存信息

info['电影'] = selector.xpath('//title/text()')[0].strip() # 定位电影名字

info['导演']=selector.xpath('//a[@rel="v:directedBy"]/text()') # 定位导演名字

info['演员']=selector.xpath('//a[@rel="v:starring"]/text()') # 定位演员名字

print(info)

#json

import json

import requests

url='https://movie.douban.com/j/new_search_subjects?sort=U&range=0,10&tags=&start=0'

header = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.67 Safari/537.36 Edg/87.0.664.52"}

get = requests.get(url=url,headers=header).json() #用json()函数得到网页源码

#print(get)

#print('**********************************')

#print(get.text)

get = get['data']

info = {}

for i in range(len(get)):

info[get[i]['title']] = [get[i]['directors'], get[i]['rate'] ] #提取每部电影的导演和评分

print(info)

end

weixin_39655377

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python判断网业上文字_如何用python提取网页上的内容学习笔记

小白，，完全不懂，初步学习笔记教程：https://www.zhihu.com/question/413854335爬虫的方法，其实就是用代码来伪装成浏览器，去访问对应的url，然后获取到返回到的内容，这部分内容可以是网页源代码，图片，mp3，视频等，其实归根结底就是获取到url指向的在服务器里对应的文件内容，然后根据不同的文件类型来选择不同编码来解析。而在这基础上，则会有很多其他补充内容和技巧，...
复制链接

扫一扫