python爬虫，爬取猫眼电影2（xpath和bs4）

最新推荐文章于 2024-06-25 17:49:47 发布

JECK_ケーキ

最新推荐文章于 2024-06-25 17:49:47 发布

阅读量1k

点赞数 1

分类专栏： python 文章标签： python 爬虫

本文链接：https://blog.csdn.net/weixin_40340586/article/details/120136649

版权

python 专栏收录该内容

87 篇文章 3 订阅

订阅专栏

接着上面的。

使用xpath提取信息，虽然python很多库，比如beautifulsoup，也有很多功能，比如查找节点，添加删除节点。但是个人感觉对爬虫来说，最重要的还是提取信息，当然，顺利的提取信息的前提是你得掌握好这些库的用法，不过有些功能确实一辈子也不会用到。对爬虫来说，就是提取文本，获取属性，这两个。

还是打开页面，这里我直接读入本地的文件，知识为了简单起见。不在requests了。

我们自己做网页爬虫的时候，还是需要借助一些工具的。比如xpath。我经常用的就是浏览器的xpath helper插件。可以很方便的看到xpath的路径是否匹配到文本。

from lxml import etree

e = etree.HTML(html)
e.xpath("//title//text()")

具体到提取信息，还是需要借助浏览器插件。

这样，就可以看到是不是能提取到信息，如果不能，那就就是xpath有问题了。可以再改，

当然也可以在element，元素上直接点击右键，copy xpath，但是这只是有助于我们分析，往往只能提取个别的，不能用到一个网页里面所有的电影。

拷贝出来的xpath是这样的。

结果它只能匹配《我不是药神》这一个电影名字。往往自己写，加上拷贝，一起分析。简单的xpath，直接就可以写出来，比如这个例子。复杂的可以借助拷贝，再分析。

演员的信息可以这样。

e = etree.HTML(html)
dd = e.xpath('//div[@class="main"]//dd')
print(len(dd))
for d in dd:
    index = d.xpath('.//i/text()')[0]
    img = d.xpath('.//a/img[2]/@data-src')[0]
    title = d.xpath('.//p[contains(@class,"name")]//text()')[0]
    actor = d.xpath('.//p[contains(@class,"star")]//text()')[0].strip()
    releasetime = d.xpath('.//p[contains(@class,"releasetime")]//text()')[0]
    score = d.xpath('.//p[contains(@class,"score")]//text()')
    score = "".join(score)
    print(index, img, title, actor, releasetime, score)

这里我还是先把dd元素抓出来，然后再遍历。

dd元素里面的每一个元素也是xpath对象，还是继续用xpath提取信息。

为了省事，直接用的 contains方法，其实也可以直接写成

//dd//p[@class="star"]//text()

这样的形式，但是我怕有的class里面的内容不止是一个单词，为了省事，还是用了contains安全一些。

得到结果。

接下来用bs4

首先还是把html转成bs4对象。

from bs4 import BeautifulSoup

soup = BeautifulSoup(html, 'lxml')
# print(soup)
items = soup.find_all('dd')
# print(len(dd))
for item in items:
    index = item.i.string
    title = item.find(class_='name').string,
    img  = item.find(class_='board-img')['data-src'],
    star =  item.find(class_='star').string.strip()[3:],
    time = item.find(class_='releasetime').string.strip()[5:],
    score =  item.find(class_='integer').string.strip() + item.find(class_='fraction').string.strip()
    print(index, img, title, actor, releasetime, score)

然后是css

同样，还是读入为css对象，只不过bs4里面就可以直接用css。

比如：

soup.select('dd:nth-child(1) .star')
soup.select('dd i.board-index')[0]

dd = soup.select('dd')
dd

for d in dd:
    print(d.select('.star'))

soup.select("dd p.star")[0].get_text()
soup.select("dd i.board-index")[0].get_text()

soup.select("dd .score i")[0].string
soup.select("dd:nth-child(1) .integer")[0].string

先把dd解析为soup对象，然后，用select方法，就可以了。

bs4提取信息的函数是get_text(),

或者string，两者结果是一样的。

css选择器，需要借助浏览器的chropath插件，

比如

我平时喜欢用scrapy的selector方法，里面支持xpath 和css，所以还是挺方便的，反正都要装scrapy。所以一个解决所有问题。

JECK_ケーキ

关注

1
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
python爬虫，爬取猫眼电影2（xpath和bs4）

接着上面的。使用xpath提取信息，虽然python很多库，比如beautifulsoup，也有很多功能，比如查找节点，添加删除节点。但是个人感觉对爬虫来说，最重要的还是提取信息，当然，顺利的提取信息的前提是你得掌握好这些库的用法，不过有些功能确实一辈子也不会用到。对爬虫来说，就是提取文本，获取属性，这两个。还是打开页面，这里我直接读入本地的文件，知识为了简单起见。不在requests了。我们自己做网页爬虫的时候，还是需要借助一些工具的。比如xpath。我经常用的就是浏览器的xpath hel
复制链接

扫一扫

专栏目录