python replace_Python|文本数据的爬取与清洗

最新推荐文章于 2023-11-14 10:19:53 发布

weixin_39606799

最新推荐文章于 2023-11-14 10:19:53 发布

阅读量344

点赞数 1

文章标签： python replace python爬取下来的数据保存csv文件怎么加title

参考代码：

import requests
from bs4 import BeautifulSoup
url = 'https://movie.douban.com/chart'  # 设置爬取网址
hd = {"User-agent": "*"}  # 设置请求方式
r = requests.get(url,headers=hd)
r.encoding = 'utf-8'  # r.apparent_encoding设置网页字符编码方式
soup = BeautifulSoup(r.content, 'html.parser')print('网页标题：',soup.title.text)# 输出title标签的内容#排行榜信息
name=soup.select('td>div>a')#电影名#请同学们补充上映时间与豆瓣评分
time=soup.select('td>div>p')
score=soup.select('td>div>div>span')for i in range(len(name)):  print(name[i].text.replace(' ','').replace('\n',''))  # 输出电影名    # 输出上映时间print(time[i].text)    # 输出豆瓣评分print(score[3*i+1].text,score[3*i+2].text)with open('douban.txt', 'w', encoding='utf-8')as f:  # 保存到记事本文件中
    f.write(soup.title.text)    #将爬取的数据存入记事本douban.txtfor i in range(len(name)):
        f.write(name[i].text.replace(' ', '').replace('\n', '')+'\n')  # 输出电影名        
        f.write(time[i].text+'\n')# 输出上映时间
        f.write(score[3*i+1].text+score[3*i+2].text+'\n'+'\n')# 输出豆瓣评分#ftp://172.16.20.46  用户密码：2019  拓展：自己去下载一部小说清洗提交

weixin_39606799

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
python replace_Python|文本数据的爬取与清洗

参考代码：import requestsfrom bs4 import BeautifulSoupurl = 'https://movie.douban.com/chart' # 设置爬取网址hd = {"User-agent": "*"} # 设置请求方式r = requests.get(url,headers=hd)r.encoding = 'utf-8' # r.appare...
复制链接

扫一扫