关于Python学习1--爬虫基础

本文介绍了Python爬虫的基础知识,包括网页抓取、页面分析和数据存储三个步骤。首先,讲解了需要了解HTTP协议和使用如requests的Python库来模拟浏览器请求。接着,提到了在Linux环境下安装requests库和其他辅助工具,如selenium和ChromeDriver,并详细说明了配置过程。最后,简单说明了如何使用Python的urllib.request模块根据URL获取网页信息。
摘要由CSDN通过智能技术生成

假如当你看到这篇文章的时候你已经学会了python的基础知识 ,假设你也已经安装好了环境变量等.那么还说什么,让我们走入爬虫的世界,我爱学习,学习爱我.


爬虫可以简单的从这三步出发

抓取网页, 分析页面,和存储数据

当我们写程序的时候,需要用代码来实现模拟浏览器向服务器发出请求,所有我们需要了解http知识,以及相应的Python库.

python自带了一些库,但是不够,需要安装一下额外的

linux环境下

  • pip install requests

以及一些wheel,selenium,ChromeDriver

其中linux 中一路执行

sudo mv geckodriver /usr/bin

vi ~/.profile

export PATH=”$PATH:/usr/local/geckodriver”

source ~/.profile

配置完成后,就可以在命令行下直接执行geckodriver命令测试:

geckodriver

然后运行以下代码

from selenium import webdriver
browser = webdriver.Firefox()

如果运行之后弹出一个空白页面,就没问题了

如何爬去网页,其实就是根据URL来获取它的网页信息

比如

import urllib.request
response = urllib.request.urlopen("http://www.baidu.com")
print(response.read())

在python3.0以上,urllib2被urllib.request所取代

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值