Python多线程豆瓣影评API接口爬虫，字节跳动Python架构师学习笔记

最新推荐文章于 2024-06-20 21:48:49 发布

2401_83739951

最新推荐文章于 2024-06-20 21:48:49 发布

阅读量848

点赞数 11

分类专栏： 2024年程序员学习文章标签： python 爬虫学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2401_83739951/article/details/137096318

版权

本文介绍了一个使用Python实现的多线程爬虫，针对豆瓣影评API接口进行数据抓取。通过随机UserAgent避免IP封锁，解析JSON数据并提取评论的ID、用户名、点赞数、星级、发表时间和内容。数据存储到数据库并提供保存到CSV文件的功能。此外，作者分享了自己的学习经历，提供了Python开发全套学习资料，包括学习路线、视频教程、项目实践、电子书等，旨在帮助开发者系统学习和提升Python技能。

摘要由CSDN通过智能技术生成

:start: 开始的记录数，0-480

‘’’

self.movie_id = movie_id

self.start = start

self.type = type

self.url = ‘https://movie.douban.com/subject/{id}/comments?start={start}&limit=20&sort=new_score&status=P&percent_type={type}&comments_only=1’.format(

id=str(self.movie_id),

start=str(self.start),

type=self.type

)

#创建数据库连接

self.session = create_session()

#随机useragent

def _random_UA(self):

self.headers[‘User-Agent’] = random.choice(USERAGENT)

#获取api接口，使用get方法，返回的数据为json数据，需要提取里面的HTML

def _get(self):

self._random_UA()

res = ‘’

try:

res = requests.get(self.url, cookies=self.cookies, headers=self.headers)

res = res.json()[‘html’]

except Exception as e:

print(‘IP被封，请使用代理IP’)

print(‘正在获取{} 开始的记录’.format(self.start))

return res

def _parse(self):

res = self._get()

dom = etree.HTML(res)

#id号

self.id = dom.xpath(self.base_node + ‘/@data-cid’)

#用户名

self.username = dom.xpath(self.base_node + ‘/div[@class=“avatar”]/a/@title’)

#用户连接

self.user_center = dom.xpath(self.base

最低0.47元/天解锁文章

关注

11
点赞
踩
17

收藏

觉得还不错? 一键收藏
0
评论
Python多线程豆瓣影评API接口爬虫，字节跳动Python架构师学习笔记

还有其他的一些东西，比如说我自己出的Python入门图文类教程，没有电脑的时候用手机也可以学习知识，学会了理论之后再去敲代码实践验证，还有Python中文版的库资料、MySQL和HTML标签大全等等，这些都是可以送给粉丝们的东西。print(‘数据重复，不做任何处理’)
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。