2.2 urllib和requests库书写代码以及完整豆瓣当页影评爬取代码

最新推荐文章于 2021-03-20 21:12:28 发布

Hathaway321

最新推荐文章于 2021-03-20 21:12:28 发布

阅读量403

点赞数

分类专栏： python爬虫

本文链接：https://blog.csdn.net/MilkHathaway/article/details/79212560

版权

python爬虫专栏收录该内容

18 篇文章 2 订阅

订阅专栏

import urllib.request
#导入urllib.request包和库

f = urllib.request.urlopen('http://www.baidu.com')
#打开网址，返回一个类文件对象

f.read(500)
#打印前500字符

print(f.read(500).decode('utf-8'))
#打印前500字符，并修改编码为utf-8

import requests #导入requests库

r1 = requests.get('http://www.baidu.com') #使用requests.get方法获取网页信息
r1.encoding='utf-8' #修改编码
print(r1.text) #打印结果

完整豆瓣当页影评爬取代码

import requests
import pandas as pd
from bs4 import BeautifulSoup

url = requests.get('https://movie.douban.com/subject/6874741/comments?status=P').text

soup = BeautifulSoup(url,'lxml') #网页解析，用的lxml解析
pattern = soup.find_all('p','') #p标签加引号，class属性为comment
for item in pattern:  #循环打印所有评论
    print(item.string)

#pandas存储数据
comments = [] #创建空list
for item in pattern:
    comments.append(item.string) #循环存入list中
df = pd.DataFrame(comments) #列表循环以pandas dataframe格式存入
df.to_csv('comments.csv') #再存入csv中 
#提示：报存csv时原来的csv不能同时打开不然报错


代码运行结果示例：

Hathaway321

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
2.2 urllib和requests库书写代码以及完整豆瓣当页影评爬取代码

import urllib.request#导入urllib.request包和库f = urllib.request.urlopen('http://www.baidu.com')#打开网址，返回一个类文件对象f.read(500)#打印前500字符print(f.read(500).decode('utf-8'))#打印前500字符，并修改编码为utf-8import
复制链接

扫一扫

专栏目录