Python爬虫实例
文章平均质量分 75
天涯笨熊
python技术爱好者
展开
-
多进程,Request+正则表达式爬取榜单类网站
本文是利用多进程、requests库和正则表达式,爬取猫眼电影的TOP100的榜单。 1:requests库的安装及详细用法 关于requests库的具体安装方法,详见博客:http://blog.csdn.net/qq_29186489/article/details/78581249;request库的介绍以及用法,请参见博客:http://blog.csdn.net/qq_29186489原创 2017-12-01 17:23:15 · 62471 阅读 · 0 评论 -
九州海上牧云记,电视剧节奏太慢?教你如何看全集
最近九州海上牧云记,在优酷上热播,画面唯美,演员也都养眼,可是这剧情的发展真的是太慢了,剧集注水严重,一集50分钟的电视剧得有10分钟在回忆,剪辑也有问题,有些地方情节跳跃性很大,连不上,每周也只有星期一到星期六每天更新两集,周日,想笙殿下、穆如寒、铁沁荷叶了,怎么办?这种事情,怎么可能抵挡我们追剧的热情?下面,我介绍一下,如何利用pyquery,爬取下载牧云记小说全集的方法,提供所有源代码,让大家原创 2017-12-03 11:36:01 · 74083 阅读 · 0 评论 -
scrapy爬虫框架的详细用法
Scrapy,Python开发的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。 Scrapy吸引人的地方在于它是一个框架,任何人都可以根据需求方便的修改。它也提供了多种类型爬虫的基类,如BaseSpider、sitemap爬虫等,最新版本又提供了web2.0爬虫的支持。原创 2017-12-12 15:32:45 · 36162 阅读 · 0 评论 -
比价网站的基础-爬取淘宝的商品信息
淘宝网站,页面上有很多动态加载的AJAX请求,并且很多参数做过加密处理,如果直接分析网页,会非常繁琐,难度极大。本文利用selenium驱动chrome浏览器完成关键字输入、搜索、点击等功能,完成页面的信息的获取,并利用pyquery库进行解析,获取商品信息并将信息存入mongodb。 selenium库的安装已经具体使用方法详见博客http://blog.csdn.net/qq_29186489原创 2017-12-06 19:08:11 · 73991 阅读 · 0 评论