python爬虫学习-爬取豆瓣短评第一页并存储为csv

最新推荐文章于 2022-05-30 10:18:25 发布

右手画诗

最新推荐文章于 2022-05-30 10:18:25 发布

阅读量998

点赞数 1

分类专栏： python 文章标签： python

本文链接：https://blog.csdn.net/fangxiaoyun1/article/details/87883993

版权

python 专栏收录该内容

8 篇文章 1 订阅

订阅专栏

操作系统：windows 10

软件：Anaconda spyder

需求：爬取豆瓣某书的短评第一页内容

import requests
r=requests.get('https://book.douban.com/subject/1084336/comments/').text

from bs4 import BeautifulSoup
soup=BeautifulSoup(r,'lxml')
pattern=soup.find_all('span','short')
for item in pattern:
    print(item.string)
    
import pandas
comments=[]
for item in pattern:
    comments.append(item.string)
df=pandas.DataFrame(comments)
df.to_csv('comments.csv',encoding='utf-8_sig')

爬虫三步：

第一步：使用requests获得数据：
1.导入requests
2.使用requests.get获取网页源码

第二步：使用BeautifulSoup4解析数据：
1.导入bs4
2.解析网页数据
3.寻找数据
4.for循环打印

第三步：使用pandas保存数据：
1.导入pandas
2.新建list对象
3.使用to_csv写入

需要注意的点：将导出的csv编码修改为‘utf-8_sig’，不然打开之后就是乱码~~