python爬取豆瓣电影信息_Python实现的爬取豆瓣电影信息功能案例

最新推荐文章于 2023-11-28 22:50:22 发布

weixin_39943926

最新推荐文章于 2023-11-28 22:50:22 发布

阅读量664

点赞数

文章标签： python爬取豆瓣电影信息

本文实例讲述了Python实现的爬取豆瓣电影信息功能。分享给大家供大家参考，具体如下：

本案例的任务为，爬取豆瓣电影top250的电影信息（包括序号、电影名称、导演和主演、评分以及经典台词），并将信息作为字典形式保存进txt文件。这里只用到requests库，没有用到beautifulsoup库

step1：首先获取每一页的源代码，用requests.get函数获取，为了防止请求错误，使用try...except..

def getpage(url):

try:

res=requests.get(url)

if res.status_code==200:

return res.text

return None

except RequestException:

return None

step2：做每一页的网址解析，打开原网址https://movie.douban.com/top250?，查看网页源代码，可以看到每一个电影的源代码都是从

开始，在处结束，写好正则表达式以后爬到的列表的每一条item都有五个元素，因此将其写成字典的形式，这里用到yield函数（关于yield函数的用法，廖老师的有一篇文章比较好懂https://www.ibm.com/developerworks/cn/opensource/os-cn-python-yield/）

对单个网页的进行解析的代码如下：

def parsepage(html):

pat=re.compile('

.*? (.*?).*? (.*?)

(.*?)

'

+'(.*?)

.*?property="v:average">(.*?).*? (.*?).*?',re.S)

items=re.findall(pat,html)

for item in items:

yield{

'index':item[0],

'title':item[1],

'stars':item[2].strip(),

'score':item[3],

'concept':item[4]

}

下面的代码是将每一个item写入文件，这里encoding='utf-8' 和ensure_ascii=False都是使写入文件时中文能保持不变，json.dumps可以将（字典）对象转化成字符串（但前面要先import json），with open的第二个参数为a，表示每次写入时，是往后追加（续接），而不是后一次写入将之前内容覆盖，\n是指要每一次写入一个item之后要换行。

def write_tofile(content):

with open('doubanfilms.txt','a',encoding='utf-8' ) as f:

f.write(json.dumps(content,ensure_ascii=False)+'\n')

f.close()

最后，需要用循环语句将每一页（共10页）内容都进行以上操作。这里，第二页的网址就是在第一页的url上加上一个start=25, 第三页是加上start=50，也就是每一页的start=为25*i。最后一段代码如下：

def main():

url="https://movie.douban.com/top250?"

for i in range(0,9):

url_i=url+'start='+str(25*i)

html_i=getpage(url_i)

for item in parsepage(html_i):

print(item)

write_tofile(item)

if __name__ == '__main__':

main()

当然，这一段代码还有一种写法：

def main(start):

url="https://movie.douban.com/top250?start="+str(start)

html=getpage(url)

for item in parsepage(html):

print(item)

write_tofile(item)

if __name__ == '__main__':

for i in range(10):

main(i*10)

如果想让你的程序跑的更快，可以用多线程爬虫（当然这里其实没有必要）：

#在最开始加载Pool包

from multiprocessing import Pool

#最后的执行段改为：

if __name__ == '__main__':

for i in range(10):

main(i*10)

pool=Pool() #在循环外写

pool.map(main,[i*10 for i in range (10)])

希望本文所述对大家Python程序设计有所帮助。

weixin_39943926

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python爬取豆瓣电影信息_Python实现的爬取豆瓣电影信息功能案例

本文实例讲述了Python实现的爬取豆瓣电影信息功能。分享给大家供大家参考，具体如下：本案例的任务为，爬取豆瓣电影top250的电影信息（包括序号、电影名称、导演和主演、评分以及经典台词），并将信息作为字典形式保存进txt文件。这里只用到requests库，没有用到beautifulsoup库step1：首先获取每一页的源代码，用requests.get函数获取，为了防止请求错误，使用try......
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。