python replace_Python|文本数据的爬取与清洗

e9391d1a60a70d77eb9d3b3098479f6c.png

参考代码:

import requests
from bs4 import BeautifulSoup
url = 'https://movie.douban.com/chart' # 设置爬取网址
hd = {"User-agent": "*"} # 设置请求方式
r = requests.get(url,headers=hd)
r.encoding = 'utf-8' # r.apparent_encoding设置网页字符编码方式
soup = BeautifulSoup(r.content, 'html.parser')print('网页标题:',soup.title.text)# 输出title标签的内容#排行榜信息
name=soup.select('td>div>a')#电影名#请同学们补充上映时间与豆瓣评分
time=soup.select('td>div>p')
score=soup.select('td>div>div>span')for i in range(len(name)): print(name[i].text.replace(' ','').replace('\n','')) # 输出电影名 # 输出上映时间print(time[i].text) # 输出豆瓣评分print(score[3*i+1].text,score[3*i+2].text)with open('douban.txt', 'w', encoding='utf-8')as f: # 保存到记事本文件中
f.write(soup.title.text) #将爬取的数据存入记事本douban.txtfor i in range(len(name)):
f.write(name[i].text.replace(' ', '').replace('\n', '')+'\n') # 输出电影名
f.write(time[i].text+'\n')# 输出上映时间
f.write(score[3*i+1].text+score[3*i+2].text+'\n'+'\n')# 输出豆瓣评分#ftp://172.16.20.46 用户密码:2019 拓展:自己去下载一部小说清洗提交

09a1d348f3814a96818305eba3666485.png

相关文章:

爬虫系列: 程序5-3-3 爬取购物平台商品销售数据 Python|词频云图 爬虫|爬取全国中小学电脑制作活动技术讲座视频 爬虫|以豆瓣为例简单地介绍清洗数据的方法 爬虫|以豆瓣为例简单地介绍爬取网站数据的方法 爬虫|python读写csv文件的方法完成生涯规划表 推荐|Python 爬虫系列教程一爬取批量百度图片 使用BeautifulSoup解析网页及清洗数据 爬虫的基本原理 关于爬虫的合法性 中国爬虫违法违规案例汇总 第五章 数据处理和可视化表达的学习
  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值