【零基础学爬虫】爬虫库简介

爬虫库

  • urllib
  • re
  • requests :pip install requests
  • selenium:自动化测试,js渲染的网页,这是使用requests无法请求,需要selenium;需要下载chromdriver,移动到配置好的环境变量路径中:这之后使用selenium可以打开chrome浏览器。这个需要浏览器界面

form selenium import webdriver
driver = webdriver.Chrome()#会自动打开浏览器
dirver.ger(‘http://www.baidu.com’)#此时chrome浏览器会自动访问百度
driver.page_source()#可以获取到网页的源码

  • phantomjs:不需要界面,无界面浏览器,后台静默运行。下载后需要把EXE文件配置到环境遍变量

javafrom selenium import wendriver
driver = wendriver.PhantomJS()
driver,ger(‘http://www.baidu.com’)
driver.page_source();

  • lxml 网页解析。官网安装或者先下载whl文件,再使用pip安装:pip install whl文件名
  • beautifulsoup,依赖lxml库,主要用于网页解析

from bs4 import BeautifulSoup
soup = BeautifulSoup(’<html>’,‘lxml’)#解析html

  • pyquery:网页解析,pip install pyquery

from pyquery import PyQuery as pq
doc = pq(’’)
doc = pq(‘hello’)
result = doc(‘html’).test()
result#结果为hello

存储库

  • pymysql:操作MySQL

import pymysql
conn = pymysql.connect(host=’’,user=’’,password=’’,端口,db=‘MySQL’)
cursor=conn.cursor()
cursor.execute(‘sql语句’)
cuesor.fetchone()#获取一条记录

  • pymongo:操作MongoDB,菲关系型数据库

import pymongo
client = pymongo.MngoClient(‘localhost’)
db = client(‘newestdb’)
db.insert(‘name’:‘cyb’)
db[‘table’] = find_one((‘name’:‘cyb’))#数据的查询

  • redis库

import redis
r = redis.Redis(‘localhost’,‘6379’)
r.set(‘name’:‘bob’)
r.get(‘name’)

  • flask web库,代理设置:代理获取,代理存储。
  • django:web服务器框架
  • jupyter :python在线调试

扫描下方二维码,及时获取更多互联网求职面经javapython爬虫大数据等技术,和海量资料分享:公众号后台回复“csdn”即可免费领取【csdn】和【百度文库】下载服务;公众号后台回复“资料”:即可领取5T精品学习资料java面试考点java面经总结,以及几十个java、大数据项目资料很全,你想找的几乎都有
扫码关注,及时获取更多精彩内容。(博主今日头条大数据工程师)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值