大数据（二）数据扒取 1

最新推荐文章于 2024-05-03 14:23:24 发布

望隐少年

最新推荐文章于 2024-05-03 14:23:24 发布

阅读量990

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u011495642/article/details/82883415

版权

每日一骚：

第一想问题要有目的性，紧紧盯着目标，如果没目标先想清楚目标，记不住就写下来。

第二把简单的东西，说清楚作用和用法。

第三把复杂的东西，原理说清楚用法记清楚。概括地说清给别人，具体的步骤你自己记住就好。

通过玩剧本杀的游戏，我发现自己缺乏概括能力。总是喜欢复制别人的话，接下来我都用我自己的话。

简单来说，概括就是把修辞去掉把不是核心的东西去掉，让别人听个最主要的大概就好了。

比如说优势就是性能高功能丰富，这就够了，不要啰里啰嗦一大堆。

——————————————————————————————————————————————————————

数据爬取的学习目标：

1.学会用python爬数据，包括它的原理和方法

2.学会用LXML Python库来进行Web数据爬取

3.学会用Scrapy进行Web数据爬取（最重点）

4.了解使用PySpider服务进行Web数据爬取

2 3 4三种方法各有优势

——————————————————————————————————————————————————————

1.安装

pip install lxml

或者anaconda安装

conda install -c anaconda lxml

2.lxml树状结构

（1）lxml是什么

是什么：lxml是python的一个xml解析库，支持HTML和XML的解析，更支持XPath解析方式，效率极高。

优势：比Python自带的xml库性能高、功能丰富，第三方库 lxml 是用 Cython 实现的，可谓爬虫处理网页数据的一件利器。lxml 大部分功能都存在 lxml.etree中，所以下文都假定已经执行了

from lxml import etree

XPath（XML Path Language）：XML路径语言，用于在XML和H搜索TML中信息，它的一切表达式和函数都是为了帮助我们定位想要的节点。

（2）lxml结构介绍

etree:基类树，所有方法几乎都在这个类里。

ElementTree：元素树，可以直接操作元素

Element ：元素

先扫盲一下：

字符串在Python内部的表示是unicode编码，因此，在做编码转换时，通常需要以unicode作为中间编码，即先将其他编码的字符串解码（decode）成unicode，再从unicode编码（encode）成另一种编码。

encode：从unicode变成其他编码

decode:从其他编码解码成unicode

机器用的都是unicode编码，但是传送起来utf-8编码效率更高。pretty_print = True指的是以人类可读的树状结构方式打印

拿到一个网页之后，我们需要把网页字符串转换一下，拿到它的根节点。

可以用etree的这三种方法转换：

(1) html = etree.fromstring("<html>.

最低0.47元/天解锁文章

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
大数据（二）数据扒取 1

每日一骚：第一想问题要有目的性，紧紧盯着目标，如果没目标先想清楚目标，记不住就写下来。第二把简单的东西，说清楚作用和用法。第三把复杂的东西，原理说清楚用法记清楚。概括地说清给别人，具体的步骤你自己记住就好。通过玩剧本杀的游戏，我发现自己缺乏概括能力。总是喜欢复制别人的话，接下来我都用我自己的话。简单来说，概括就是把修辞去掉把不是核心的东西去掉，让别人听个最主要的大概就...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。