一个简单的爬虫实例

16 篇文章 143 订阅 ¥9.90 ¥99.00

貌似学习python就绕不过爬虫,今天看了很多资料,各式各样的爬虫,各种尝试,最后还是只能搞定入门级的,嗯,一步步来吧……

 

import requests
from lxml import html
url='https://music.douban.com/' #需要爬的网址
page=requests.Session().get(url) 
tree=html.fromstring(page.text) 
result=tree.xpath('//tr//a/text()') #需要获取的数据
result1=tree.xpath('//tr//a/@href')
result2=tree.xpath('//tr[last()]//a/@href')
print(result)
print(result1)
print(result2)


我们爬取一下豆瓣音乐专区,其中url便是我们要爬取的网址,而tree.xpath()中的内容便是该网址中我们要获取的数据,显而易见,该程序爬取了三部分内容,//tr//a/text()便是需要抓取内容的路径,意思是所有标签下的tr标签的所有a标签的文本内容,是不是有点绕口,其实这就是一个相对路径,注意一个‘/’和两个‘/’的区别,可以分别理解成绝对路径和“所有”~~

 

第二个爬取的内容为a标签的href属性值,第三个为最后一个tr标签下的所有a标签的href属性值。

看结果吧:

  • 18
    点赞
  • 67
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 11
    评论
Python小实例一:简单爬虫 爬虫是指通过程序自动获取互联网上的信息的一种技术。使用Python编写爬虫非常方便,下面是一个简单的Python爬虫实例。 示例:爬取豆瓣电影TOP250的电影名称和评分 ```python import requests from bs4 import BeautifulSoup def get_movie_info(url): response = requests.get(url) soup = BeautifulSoup(response.text, 'html.parser') movie_list = soup.find('ol', class_='grid_view').find_all('li') for movie in movie_list: title = movie.find('span', class_='title').text rating = movie.find('span', class_='rating_num').text print('电影名称:{},评分:{}'.format(title, rating)) def main(): url = 'https://movie.douban.com/top250' get_movie_info(url) if __name__ == '__main__': main() ``` 上述代码首先引入了`requests`和`BeautifulSoup`库,其中`requests`库用于发送HTTP请求获取网页内容,`BeautifulSoup`库用于解析网页内容。 `get_movie_info`函数接受一个URL作为参数,使用`requests`库发送GET请求获取网页内容,并使用`BeautifulSoup`库解析HTML。然后,我们通过CSS选择器找到包含电影信息的`<ol>`标签,再找到每个电影的信息,最后打印出电影名称和评分。 `main`函数简单地调用`get_movie_info`函数,传入豆瓣电影TOP250的URL作为参数。 运行程序后,我们就可以在控制台上看到豆瓣电影TOP250的电影名称和评分了。 这个实例只是一个简单爬虫示例,爬虫还有很多更复杂的应用场景,比如爬取更多的信息、存储数据、处理网页内容等等。希望这个简单的实例能帮助你入门Python爬虫

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 11
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

beyond_LH

您的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值