基础5·2345电影排名的爬取（返回数据乱码的解决）

最新推荐文章于 2020-07-19 21:58:27 发布

楼上little黑

最新推荐文章于 2020-07-19 21:58:27 发布

阅读量949

点赞数 3

分类专栏：基础爬虫及进阶文章标签：电影排名爬取

本文链接：https://blog.csdn.net/qq_44534317/article/details/89436450

版权

基础爬虫及进阶专栏收录该内容

16 篇文章 0 订阅

订阅专栏


import re,requests,json

url='http://dianying.2345.com/top/'
headers = {
            'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.162 Safari/537.36'
        }
r=requests.get(url,headers=headers)
r.encoding='gb2312'             #解决中文乱码问题，其来着网页源码的<meta charset="gb2312">
ret=r.text
moban=re.compile('<li>.*?blank">(.*?)</a></span>.*?<span class="sIntro">(.*?)</span>', re.S)
items = re.findall(moban,ret)
print(type(items))
#print(items)
for item in items:
    item=str(item)

    with open("C://Users/Administrator/Desktop/"+'2345电影排名爬取.txt', 'a', encoding='utf-8') as f:
        f.write(item+"\t")
        #f.write(json.dumps(item, ensure_ascii=False) + '\n')
        # print(item[0],item[1],item[2])

结果展示
在这里插入图片描述

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

楼上little黑

关注关注

3
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
基础5·2345电影排名的爬取（返回数据乱码的解决）

import re,requests,jsonurl='http://xxx.com'headers = { 'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.162 Safari...
复制链接

扫一扫