【零基础学爬虫】爬虫库简介

最新推荐文章于 2024-05-11 11:28:36 发布

古老的屋檐下

最新推荐文章于 2024-05-11 11:28:36 发布

阅读量157

点赞数

分类专栏：零基础学爬虫零基础一起学爬虫文章标签：零基础学爬虫爬虫库介绍 python 爬虫

本文链接：https://blog.csdn.net/liewen_/article/details/89377557

版权

零基础学爬虫同时被 2 个专栏收录

24 篇文章 0 订阅

订阅专栏

零基础一起学爬虫

22 篇文章 1 订阅

订阅专栏

爬虫库

urllib
re
requests ：pip install requests
selenium:自动化测试，js渲染的网页，这是使用requests无法请求，需要selenium；需要下载chromdriver，移动到配置好的环境变量路径中：这之后使用selenium可以打开chrome浏览器。这个需要浏览器界面

form selenium import webdriver
driver = webdriver.Chrome()#会自动打开浏览器
dirver.ger(‘http://www.baidu.com’)#此时chrome浏览器会自动访问百度
driver.page_source()#可以获取到网页的源码

phantomjs:不需要界面，无界面浏览器，后台静默运行。下载后需要把EXE文件配置到环境遍变量

javafrom selenium import wendriver
driver = wendriver.PhantomJS()
driver,ger(‘http://www.baidu.com’)
driver.page_source();

lxml 网页解析。官网安装或者先下载whl文件，再使用pip安装：pip install whl文件名
beautifulsoup，依赖lxml库，主要用于网页解析

from bs4 import BeautifulSoup
soup = BeautifulSoup(’<html>’,‘lxml’)#解析html

pyquery：网页解析，pip install pyquery

from pyquery import PyQuery as pq
doc = pq(’’)
doc = pq(‘hello’)
result = doc(‘html’).test()
result#结果为hello

存储库

pymysql：操作MySQL

import pymysql
conn = pymysql.connect(host=’’,user=’’,password=’’,端口，db=‘MySQL’)
cursor=conn.cursor()
cursor.execute(‘sql语句’)
cuesor.fetchone()#获取一条记录

pymongo：操作MongoDB，菲关系型数据库

import pymongo
client = pymongo.MngoClient(‘localhost’)
db = client(‘newestdb’)
db.insert(‘name’:‘cyb’)
db[‘table’] = find_one((‘name’:‘cyb’))#数据的查询

redis库

import redis
r = redis.Redis(‘localhost’,‘6379’)
r.set(‘name’:‘bob’)
r.get(‘name’)

flask web库，代理设置：代理获取，代理存储。
django：web服务器框架
jupyter ：python在线调试

扫描下方二维码，及时获取更多互联网求职面经、java、python、爬虫、大数据等技术，和海量资料分享：公众号后台回复“csdn”即可免费领取【csdn】和【百度文库】下载服务；公众号后台回复“资料”:即可领取5T精品学习资料、java面试考点和java面经总结，以及几十个java、大数据项目，资料很全，你想找的几乎都有
扫码关注，及时获取更多精彩内容。（博主今日头条大数据工程师）

古老的屋檐下

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【零基础学爬虫】爬虫库简介

爬虫库urllibrerequests ：pip install requestsselenium:自动化测试，js渲染的网页，这是使用requests无法请求，需要selenium；需要下载chromdriver，移动到配置好的环境变量路径中：这之后使用selenium可以打开chrome浏览器。这个需要浏览器界面form selenium import webdriverd...
复制链接

扫一扫