爬虫的常用库的安装

安装python自带的库

url 和 re
在这里插入图片描述

这两个库在安装python的时候会自带,正常情况下导入是正常的。

request库

这个库不是python安装的时候自带的,需要自行安装,安装命令:
pip install requests

selenium库(驱动浏览器的库)

同样,这个库需要自己安装,安装命令
pip intall selenium
然后测试一下:

import selenium
from selenium import webdriver
driver = webdriver.Chrome()

没有猜错的话会出现报错信息,说是chromedriver没有加到系统变量里,所以我们需要安装一个chromedriver,安装chromedriver直接在网上搜索就可以了,然后因为现在介绍的是windows下的安装,所以记得选windows的安装包:
在这里插入图片描述

安装完成之后是一个压缩包,解压它然后将解压过后的exe文件放在python文件夹下,如果你使用的是虚拟环境,可以将.exe文件放在虚拟环境的python解释器所在的文件目录下,比如我就放在虚拟环境为pc的文件夹下:
在这里插入图片描述

当然也可以放到scripts文件夹下:
在这里插入图片描述

现在再试一遍:
在这里插入图片描述

就成功打开了谷歌浏览器。如果你发现你的浏览器只是一闪而过,那么可能是你的浏览器版本过低,这时候需要更新浏览器,具体还是看报错信息。注意:如果成功打开了谷歌浏览器,不要关闭界面,因为关闭了就无法驱动浏览器了。

现在可以驱动浏览器了:

driver.get('http://www.baidu.com')

在这里插入图片描述

查看网页的源码:

driver.page_source

lxml安装(进行网页解析)

pip install lxml

beautifulsoup安装(网页解析,依赖于lxml)

pip install beautifulsoup4

注意这里是beatifulsoup4,然后导入的时候需要这样导入:
from bs4 import BeautifulSoup as bs
为啥这么导入呢?看官网:https://pypi.org/project/beautifulsoup4/
当然打开这个网页就有介绍如何导入使用的例子,你还可以在这里下载源代码:
在这里插入图片描述

下载好了之后解压,打开setup文件看到:
在这里插入图片描述

所以是beautifulsoup4,又看到bs4文件夹,所以是from bs4 import…
在这里插入图片描述

加一句,如果你想安装python第三方库又特别慢,除了添加镜像你还可以在这里下载.whl文件,然后将这个文件放在一个指定的位置,直接输入:
pip install <文件路径>即可,当然前提是你还安装了第三方库:wheel

接着“美丽的汤”操作,然后创建一个bs对象:
soup = bs('<html></html>','lxml')

安装pyquery

pip install pyquery

from pyquery import PyQuery as pq
# pq传进去的第一个参数是网页源代码
doc = pq('<html></html>')
# 可以像这个网页源代码填充一个字符串
doc = pq('<html>pyquery</html>')
# 使用doc的方法来解析这个字符串:
result = doc('html').text()
print(result)

在这里插入图片描述

pymysql安装(操作数据库存储)

pip install cryptography
pip install pymysql
(两个指令都需要输入)
前提是要在自己的电脑上安装好MySQL,安装好MySQL之后可以简单测试一下pymsql是否可以使用:
在这里插入图片描述

注意这里的用户名和密码还有想要连接的数据库根据自己的情况更改。

pymongo安装(操作mongo db,也是一种数据库)

pip install pymongo

redis(也是一种数据库,运行效率高)

pip install redis

flask(web库,代理设置的时候会用到)

pip install flask
一个小应用:

from flask import Flask
app = Flask(__name__)

@app.route('/')
def hello_world():
	return 'Hello World!'

if __name__ == "__main__":
	app.run()

请注意保存的文件名不为flask.py,因为这将于Flask本身冲突。

django(web服务器框架,分布式爬虫维护用)

  • 0
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值