python根据标签爬取网页信息

最新推荐文章于 2024-04-30 13:19:06 发布

Super_Sloppy

最新推荐文章于 2024-04-30 13:19:06 发布

阅读量2.6k

点赞数 2

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Super_Sloppy/article/details/79273771

版权

这里以豆瓣TOP250为案例，爬取网页信息

import requests#python HTTP客户端库，编写爬虫和测试服务器响应数据会用到的类库
import re
from bs4 import BeautifulSoup

print('正在从豆瓣电影TOP250爬取数据……')
# url网址 = 'https://movie.douban.com/top250?start=0'  (第一页)
for page in range(10):
    url = 'https://movie.douban.com/top250?start='+str(page*25)
    print('-----------正在爬取第'+str(page+1)+'页------')
    # 根据url网址获取网页源码
    html=requests.get(url)
    html.raise_for_status()
    try:
        # 解析 HTML源代码
        soup=BeautifulSoup(html.text, 'html.parser')
        # 使用正则 表达式将网页文本转换成字符串
        soup=str(soup)
        # 该函数根据包含正则表达式的字符串解析创建模式对象
        title=re.compile(r'<span class="title">(.*)</span>')
        names = re.findall(title,soup)
        for name in names:
            #剔除’/‘后面的英文名（英文名特征是含有’/‘）
            if name.find('/') == -1:
                print(name)
    except Exception as e:
        print(e)

print("爬取完毕")

关注

2
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
python根据标签爬取网页信息

这里以豆瓣TOP250为案例，爬取网页信息import requests#python HTTP客户端库，编写爬虫和测试服务器响应数据会用到的类库import refrom bs4 import BeautifulSoupprint('正在从豆瓣电影TOP250爬取数据……')# url网址 = 'https://movie.douban.com/top250?start=0' (第一...
复制链接

扫一扫

Super_Sloppy CSDN认证博客专家 CSDN认证企业博客

码龄7年

35: 原创

10万+: 周排名

163万+: 总排名

5万+: 访问

: 等级

826: 积分

46: 粉丝

36: 获赞

19: 评论

172: 收藏

私信

关注

热门文章

分类专栏

jvm 3篇
计网 1篇
消息队列
kafka
redis 4篇

最新评论

Mac中使用StanfordNLP报权限和端口错误
weixin_42202479: 您好，我在使用stanfordNLP时出现了您提到的Mac中使用StanfordNLP报权限和端口错误，https://blog.csdn.net/Super_Sloppy/article/details/100687897。但是如果我指定port，会出现很奇怪的现象：比如我指定port=9999，在进行命名实体识别的时候，其命名实体类型会减少，比如百分比、货币类型不会出现，而文本中出现的60%这样的百分比文本会被直接归类到MISC(杂项)里面；但是如果我调整port，比如将其设置为999，那么命名实体类型又会增加，重新出现百分比、货币类型，文本中出现的60%这样的百分比文本会被直接归类到PERCENT里面。所以很想请教一下，这个port到底是影响到了什么？应该如何设置呢。非常感谢！
mahout协同过滤，连数据库数据，实现推荐
Mr_CharlieChen: 大佬，我查出来的RecommendedItem集合是空的这是为啥？
数据结构(C语言版严蔚敏著)——线性表
羊头吃了龙: 在c语言中&不为引用符号，会报错，准确来说你这个是c++
python百度搜索url爬取图片
xz_mazhiguo: 无法运行，第30行报错
SSM框架中excel表的的上传和下载
weixin_47561560: 大哥，跪求：763004560@qq.com

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。