关于爬虫工具。

请求获取网页信息类工具:urllib,urllib3,requests

注:在python2.x里面有urllib和urllib2;在python3.x里面就把urllib和urllib2合成一个urllib;urllib3是在python3.x了里面新增的第三方扩展.Requests它会比urllib更加方便,可以节约我们大量的工作。(用了requests之后,你基本都不愿意用urllib了)一句话,requests是python实现的最简单易用的HTTP库,建议爬虫使用requests库。

基本用法:

import requests

res=requests.get('http://www.julongyoule.cn')    #获取,返回一个http请求response

res.encoding='utf-8' #可以指定编码,不然中文会乱码

res.text #取得http相应的html代码


解析网页数据工具:beautifulsoup,etree,Selecter等。(个人掌握etree和beautifulsoup就ok了)

etree基本用法:(配合xpath)

from lxml import etree

etree.HTML(res.text).xpath('//a/@href') 

#返回一个列表,注意解析的必须是html代码,requests返回的response的text


beautifulsoup基本用法(利用css选择方式select):

from bs4 import Beautifulsoup

soup=Beautifulsoup(res.text,'lxml')    #注意解析的必须是html代码,requests返回的response的text

a_list=soup.select('a')    #返回的是一个列表 必须在for循环中使用a['href']才能取得链接


Selecter基本用法(scrapy框架所使用的解析器):

from parsel import Selecter

sel_list=Selector(text=res.text).xpath('//a/@href').extract()    #返回的也是一个列表,注意这里的extract(),与etree的区别



评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值