2.2 urllib和requests库书写代码以及完整豆瓣当页影评爬取代码

import urllib.request
#导入urllib.request包和库

f = urllib.request.urlopen('http://www.baidu.com')
#打开网址,返回一个类文件对象

f.read(500)
#打印前500字符

print(f.read(500).decode('utf-8'))
#打印前500字符,并修改编码为utf-8

import requests #导入requests

r1 = requests.get('http://www.baidu.com') #使用requests.get方法获取网页信息
r1.encoding='utf-8' #修改编码
print(r1.text) #打印结果

完整豆瓣当页影评爬取代码

import requests
import pandas as pd
from bs4 import BeautifulSoup

url = requests.get('https://movie.douban.com/subject/6874741/comments?status=P').text

soup = BeautifulSoup(url,'lxml') #网页解析,用的lxml解析
pattern = soup.find_all('p','') #p标签加引号,class属性为comment
for item in pattern:  #循环打印所有评论
    print(item.string)

#pandas存储数据
comments = [] #创建空list
for item in pattern:
    comments.append(item.string) #循环存入list
df = pd.DataFrame(comments) #列表循环以pandas dataframe格式存入
df.to_csv('comments.csv') #再存入csv 
#提示:报存csv时原来的csv不能同时打开不然报错


代码运行结果示例:

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值