豆瓣数据爬取与分析
搭建豆瓣完整爬虫项目,并用于数据可视化与分析
哈士奇说喵
我的目标是星辰大海啊~
展开
-
豆瓣电影分析报告:大陆和港台到底差(cha)在哪里?
Python 2.7 IDE Pycharm 5.0.3 PyExcelerator 0.6.4a 可视化 Plotly图片要是挂了请看这里此文备份链接前言 在上次爬完豆瓣的东西后,感觉锻(zhuang)炼(yi)能(xia)力(bi)之外,貌似并没有实际用处,说实话,我宁可去网页一页页浏览电影也不愿意面对这苍白的文字。所以,分析一下比较好。目的 根据豆瓣所有的电影,分析各国各地区原创 2016-10-10 22:10:45 · 9247 阅读 · 1 评论 -
Python自定义豆瓣电影种类,排行,点评的爬取与存储(高阶上)
Python 2.7 IDE Pycharm 5.0.3 Firefox 47.0.1豆瓣电影系列: - 基础抓取(限于“豆瓣高分”选项电影及评论)请看↓ Python自定义豆瓣电影种类,排行,点评的爬取与存储(基础) - 初级抓取(限于“豆瓣电影”的各种选项,包括“热门”,“豆瓣高分”等十几个类别及评论,并打包exe)请看↓ Python自定义豆瓣电影种类,排行,点评的爬取与存储(原创 2016-10-01 19:47:13 · 3461 阅读 · 1 评论 -
Python自定义豆瓣电影种类,排行,点评的爬取与存储(进阶下)
Python 2.7 IDE Pycharm 5.0.3如有兴趣可以从如下几个开始看起,其中有我遇到的很多问题: 基础抓取(限于“豆瓣高分”选项电影及评论)请看Python自定义豆瓣电影种类,排行,点评的爬取与存储(基础)初级抓取(限于“豆瓣电影”的各种选项,包括“热门”,“豆瓣高分”等十几个类别及评论,并打包exe)请看Python自定义豆瓣电影种类,排行,点评的爬取与存储(初级)进阶抓取(在原创 2016-07-23 12:59:53 · 7884 阅读 · 2 评论 -
Python自定义豆瓣电影种类,排行,点评的爬取与存储(进阶上)
Python 2.7 IDE Pycharm 5.0.3具体Selenium及PhantomJS请看Python+Selenium+PIL+Tesseract真正自动识别验证码进行一键登录 一些自动化应用实例请看Selenium+PhantomJS自动续借图书馆书籍 至于GUI的入门使用请看Python基于Tkinter的二输入规则器(乞丐版) 比较综合的GUI例子请看基于Python的参考原创 2016-07-22 12:14:17 · 5271 阅读 · 0 评论 -
Python自定义豆瓣电影种类,排行,点评的爬取与存储(初级)
Python 2.7 IDE Pycharm 5.0.3具体Selenium和PhantomJS配置及使用请看调用PhantomJS.exe自动续借图书馆书籍网上一溜TOP250---有意思么?起因就是想写个豆瓣电影的爬取,给我电影荒的同学。。。。当然自己也练手啦目的1.根据用户输入,列出豆瓣高分TOP(用户自定义)的电影,链接,及热评若干。 2.制作不需要Python环境可运行的exe,但由原创 2016-07-20 11:51:44 · 5165 阅读 · 2 评论 -
伪解决Selenium中调用PhantomJS无法模拟点击(click)操作
Python 2.7 IDE Pycharm 5.0.3具体Selenium和PhantomJS配置及使用请看调用PhantomJS.exe自动续借图书馆书籍我一直以为,PhantomJS就是无界面的浏览器而已,用Selenium调用PhantomJS和调用Firefox并没有区别起因今天想写个爬豆瓣高分电影及评论的小爬虫,刚开始一直调用浏览器进行模拟登陆测试,之后换成调用PhantomJS之后原创 2016-07-19 17:59:01 · 17094 阅读 · 2 评论