爬虫从入门到放弃 - 纯新手学习-爬虫基本数据库安装

最新推荐文章于 2022-05-07 16:24:37 发布

ZHOUXIN0426

最新推荐文章于 2022-05-07 16:24:37 发布

阅读量251

点赞数

文章标签：爬虫数据库 python

原文链接：http://www.cnblogs.com/Roc-Atlantis/p/9346767.html

版权

1.安装好前期必备的库 - requests 向网页发出请求

解释器自带的urllib 和re

selenium 用于向有js渲染的网页发起请求

from selenium import webdriver

driver = webdriver.Chrome() # 生成一个driver对象，并打开谷歌浏览器

driver.get('https://www.baidu.com') # 打开百度网页

driver.page_source 查看网页的源代码，可以拿到渲染的页面源代码

selenium需要打开网页，不方便

from selenium import webdriver

driver = webdriver.PhantomJS() # 生成一个driver对象

driver.get('https://www.baidu.com') # 期间不产生任何打开网页的操作

driver.page_source 查看网页的源代码

2.lxml库

pip3 install lxml

也可以去python官网下载whl文件，下载好的文件链接，whl结尾的用pip3 install 链接直接安装

3.beautifulsoup 也是一个网页解析库

依赖于lxml，也就是要先安装lxml这个库

pip3 install beautifulsoup4 表示安装beautifulsoup第四个版本

>>> from bs4 import BeautifulSoup # 导入BeautifulSoup
>>> soup = BeautifulSoup('(html)(/html)','lxml')

为什么是bs4，因为别人写模块的时候定义了一个包就叫ps4，里卖弄存放着这个模块。可以去官网查看源代码

4.pyquery 解析库

pip3 install pyquery

>>> from pyquery import PyQuery as pq
>>> doc = pq('(html)hello(/html)')
>>> result = doc('html').text() 可以查看标签对应的内容

总结：上面都是一些解析库，下面介绍一些存储库

5.pymysql 操作mysql的库

pip3 install pymysql

6 pymongo

pip3 install pymongo # pymongo 是对mongodb数据库的操作

7 redis 分布式爬虫抓取队列时用

pip3 install redis

8 flask web库代理的获取存储接口

pip3 install flask

9.django

pip3 install django

10.jupyter

pip3 install jupyter

jupyter notebook # 直接在命令行输入。弹出一个浏览器，显示当时运行的文件，可以新建文件

可以在线运行代码，用的python解释器

转载于:https://www.cnblogs.com/Roc-Atlantis/p/9346767.html

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
爬虫从入门到放弃 - 纯新手学习-爬虫基本数据库安装

1.安装好前期必备的库 - requests 向网页发出请求解释器自带的urllib 和reselenium 用于向有js渲染的网页发起请求from selenium import webdriverdriver = webdriver.Chrome() # 生成一个driver对象，并打开谷歌浏览器driver.get('https://www.baidu.c...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。