关于Python学习１－－爬虫基础

最新推荐文章于 2024-04-01 13:30:49 发布

RolleDev

最新推荐文章于 2024-04-01 13:30:49 发布

阅读量155

点赞数

分类专栏： Python Python学习

本文链接：https://blog.csdn.net/zrds2e/article/details/75213311

版权

Python 同时被 2 个专栏收录

7 篇文章 0 订阅

订阅专栏

Python学习

2 篇文章 0 订阅

订阅专栏

本文介绍了Python爬虫的基础知识，包括网页抓取、页面分析和数据存储三个步骤。首先，讲解了需要了解HTTP协议和使用如requests的Python库来模拟浏览器请求。接着，提到了在Linux环境下安装requests库和其他辅助工具，如selenium和ChromeDriver，并详细说明了配置过程。最后，简单说明了如何使用Python的urllib.request模块根据URL获取网页信息。

摘要由CSDN通过智能技术生成

假如当你看到这篇文章的时候你已经学会了python的基础知识　，假设你也已经安装好了环境变量等．那么还说什么，让我们走入爬虫的世界，我爱学习，学习爱我．

爬虫可以简单的从这三步出发

抓取网页，分析页面，和存储数据

当我们写程序的时候，需要用代码来实现模拟浏览器向服务器发出请求，所有我们需要了解http知识，以及相应的Python库．

python自带了一些库，但是不够，需要安装一下额外的

linux环境下

pip install requests

以及一些wheel，selenium，ChromeDriver

其中linux 中一路执行

sudo mv geckodriver /usr/bin

vi ~/.profile

export PATH=”$PATH:/usr/local/geckodriver”

source ~/.profile

配置完成后，就可以在命令行下直接执行geckodriver命令测试：

geckodriver

然后运行以下代码

from selenium import webdriver
browser = webdriver.Firefox()

如果运行之后弹出一个空白页面，就没问题了

如何爬去网页,其实就是根据URL来获取它的网页信息

比如

import urllib.request
response = urllib.request.urlopen("http://www.baidu.com")
print(response.read())

在python3.0以上，urllib2被urllib.request所取代

RolleDev

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录