简单爬虫

最新推荐文章于 2022-11-29 21:12:13 发布

ShitChan

最新推荐文章于 2022-11-29 21:12:13 发布

阅读量203

点赞数

分类专栏： Python 文章标签： python

本文链接：https://blog.csdn.net/clxcomeon/article/details/54929723

版权

Python 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

URL管理器

实现方式：

基于内存set()
基于数据库（包含关系型如：oracle、mysql等，还有非关系型如：redis、pg等）

包含属性：

保存“爬”过的url
保存未“爬”过的url

包含方法：

add增加一个url
get获取一个url

网页下载器

实现方式：

urllib2

response = urllib2.urlopen(url)
if response.getcode()!=200
    return
return response.read()

request

网页解析器

实现方式：

beautiful soup

soup = BeautifulSoup(html_doc,'html_parser',from_encoding='utf-8')
#获取所有文字内容：
soup.get_text()
#获取标签：
soup.find(id="link3")
soup.find_all('a',href=re.complie(''))

ShitChan

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
简单爬虫

URL管理器实现方式：基于内存set()基于数据库（包含关系型如：oracle、mysql等，还有非关系型如：redis、pg等）包含属性：保存“爬”过的url保存未“爬”过的url包含方法：add增加一个urlget获取一个url网页下载器实现方式：urllib2urllib2.urlopen(url)request网页解析器实现方式：beautiful soupso
复制链接

扫一扫