本文爬虫实现的功能:
随便在豆瓣网站中选择一部电影,获取影片详细信息,并自动获取该影片的短评链接,再跳转到短评页面,获取各位观众的影评,最后将爬取的数据存储到数据库中。
开发环境:
python3 + pycharm +WIN +mysql
步骤展示:
1.选取某一 影片,爬取该影片部分信息
2.下拉到该影片的短评区,爬取全部评论的链接
3. 通过部分手段跳转到全部链接的页面,并获取全部的短评
代码展示:
利用requests,beautifulSoup,re模块实现爬取功能,爬取的数据先复制到本地(通
过os模块实现),最后通过pymysql实现