python爬虫
文章平均质量分 72
恰恰·
这个作者很懒,什么都没留下…
展开
-
利用Python爬取简书最新收录文章
本文将利用Python爬虫的几个基本库实现爬取简书最新收录的文章,并存储到txt文件中。1.爬虫思路分析1).简书网“最新收录”的网页界面(https://www.jianshu.com/c/bDHhpK)如下:2).当手动预览该页面时,发现网页的地址并没有改变,因此判断该网友用了异步加载,进而打开Chorm浏览器开发者工具(F12),先刷新界面(F5),然后选择Network选项,并使用...原创 2018-12-21 21:25:59 · 988 阅读 · 0 评论 -
python爬取豆瓣电影json数据
由于豆瓣里的电影都有专属的id,获取到id后可以进一步爬取其他页面的内容。首先来到主界面(https://movie.douban.com)观察网页:点击“选电影”进入需要爬取的界面:打开Chrome开发模式,并下拉网页观察新生成的文件可以观察到页面没有跳转,说明该网页采用了异步加载技术,同时生成的主文件为以search_subjects开头的文件文件页面的url:通过点击Re...原创 2019-01-17 17:59:46 · 4227 阅读 · 1 评论