爬虫
JUNECODE
这个作者很懒,什么都没留下…
展开
-
实例学习——爬取简书网热评文章
近来学习多线程爬虫,发现书上关于爬取简书网热评文章的代码因网页更改问题运行有误,在此修正。开发环境:(Windows)eclipse+pydev+MongoDB爬取网址:https://www.jianshu.com/c/bDHhpK1、手动浏览网页,发现没有分页的界面,可判断该网站采用了异步加载技术。2、查看网页源代码,通过观察源代码Network处Headers的URL,发...原创 2019-09-06 15:51:12 · 385 阅读 · 0 评论 -
实例学习——爬取Pexels高清图片(学习异步加载)
近来学习爬取Pexels图片时,发现书上代码会抛出ConnectionError,经查阅资料知,可能是向网页申请过于频繁被禁,可使用time.sleep(),减缓爬取速度,但考虑到爬取数据较多,运行时间过长,所以选择对抛出的异常pass,在此修正。开发环境:(Windows)eclipse+pydev爬取网址:https://www.pexels.com/search/book/1...原创 2019-09-07 09:05:33 · 1118 阅读 · 0 评论 -
实例学习——爬取简书网用户动态(lxml/bs4)
开发环境:(Windows)eclipse+pydev+MongoDB爬取网址:https://www.jianshu.com/u/9104ebf5e177lxml解析:# _*_ coding:utf-8 _*_import requestsfrom lxml import etreeimport pymongoclient = pymongo.MongoCli...原创 2019-09-08 10:26:53 · 325 阅读 · 0 评论