request+lxml 和ruia的区别

最新推荐文章于 2022-09-07 13:56:07 发布

Strict Flora

最新推荐文章于 2022-09-07 13:56:07 发布

阅读量8.3k

点赞数

分类专栏： requests

本文链接：https://blog.csdn.net/jsxingmang/article/details/103679977

版权

requests 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

使用requests+lxml爬取网页

import requests
from lxml import etree

url = 'https://movie.douban.com/subject/1292052/'
headers = {
    "User-Agent":"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_6) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/13.0.3 Safari/605.1.15"
}
r = requests.get(url,headers=headers)
tree = etree.HTML(r.text)
el = tree.xpath('//*[@id="content"]/h1/span[1]/text()')
print(el)

使用ruia框架爬取网页

import asyncio

from ruia import Item, TextField


class DoubanItem(Item):
    """
    定义爬虫的目标字段
    """
    title = TextField(css_select='#content > h1 > span:nth-child(1)')


async_func = DoubanItem.get_item(url="https://movie.douban.com/subject/1292052/")
item = asyncio.get_event_loop().run_until_complete(async_func)
print(item.title)

requests+lxml 爬取代码量多
ruia 简洁

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Strict Flora

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
request+lxml 和ruia的区别

使用requests+lxml爬取网页import requestsfrom lxml import etreeurl = 'https://movie.douban.com/subject/1292052/'headers = { "User-Agent":"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_6) AppleWebKit/...
复制链接

扫一扫