Python爬虫
文章平均质量分 63
最小森林
It's now or never .
展开
-
python-慕课网-Python开发简单爬虫-蚂蚁-读书笔记
本文阅读并记录自己的学习笔记。感谢蚂蚁大神的分享。目录:爬虫基础 1.1 爬虫课程介绍1.2 爬虫简介1.3 爬虫架构1.4 URL管理模块1.5 网页下载器:urllib21.6 网页解析器:正则或BeautifulSoup1.7 爬取实践Scrapy框架的学习(挖坑) 2.1啊爬虫的难点有的网站需要登录有些内容是JS的Ajax异步加载的。很难搞到数据。 但是我们这门课原创 2017-04-27 16:07:24 · 1530 阅读 · 0 评论 -
2.4 scrapy的重要对象request和response
scrapy的重要对象requests1初始化的参数2属性3实例要搞懂的问题06 scrapy的重要对象web服务器收到客户端的HTTP请求,会针对每一次请求分别创建一个用于代表请求的request对象和代表响应的response对象。要得到客户机提交过来的数据,只需要找request对象就行了。要向客户机输出数据,只需要找response对象就行了。1.requests1.1初始原创 2017-05-13 17:42:24 · 2419 阅读 · 0 评论 -
AttributeError: 'FeedExporter' object has no attribute 'slot'
使用scrapy时候你报错:AttributeError: ‘FeedExporter’ object has no attribute ‘slot’因为当前需要写入的文件被占用,写不进去!解决方法,关闭打开的 csv文件原创 2017-05-20 16:26:06 · 3162 阅读 · 0 评论 -
2.6 实战天猫数据爬取
6 实战天猫数据爬取主要用到的知识点实用技巧1多级页面的抓取-callback函数实用技巧2图片的抓取-抓取过程中的常见问题cookie的处理cookie模拟登录分页完整代码参见 2.6 实战天猫数据爬取主要用到的知识点实用技巧1—多级页面的抓取-callback函数实用技巧2—图片的抓取-抓取过程中的常见问题—cookie的处理,cookie模拟登录分页1. 实用技巧1—多级原创 2017-05-19 18:49:15 · 6422 阅读 · 3 评论 -
2.5 scrapy的内置服务介绍
5 scrapy的内置服务介绍logging日志服务基本使用方法在scrapy中使用在settingspy中配置stats collections基本操作内置可用收集器sending-email基本使用方法mailsender类mail settings2.5 scrapy的内置服务介绍logging日志服务logging的等级:logging.CRITICAL - for原创 2017-05-19 16:51:38 · 1222 阅读 · 0 评论 -
1.7 爬取汽车之家实战
1.7 爬取汽车之家实战7 爬取汽车之家实战任务简介 及 爬虫架构极url管理器网页下载器网页解析器保存获取的信息1. 任务简介 及 爬虫架构极前面学习了,爬虫的基本架构。现在要动手实践了,因为师兄说“学一门语言就必须上手去练习!”。爬取哪个网站呢?正好,最近敬爱的导师需要汽车之家爱上面的数据, 我就爬这个。本文代码全部共享于GitHub上,地址:爬取汽车之家实战:github 目标:原创 2017-05-02 21:47:43 · 8307 阅读 · 3 评论 -
pycharm下打开、执行并调试scrapy爬虫程序
首先得有一个Scrapy项目,我在Desktop上新建一个Scrapy的项目叫test,在Desktop目录打开命令行,键入命令:scrapy startproject test1 目录结构如下: 打开Pycharm,选择open 选择项目,ok 打开如下界面之转载 2017-05-14 20:34:56 · 42468 阅读 · 5 评论 -
2.3 scrapy的重要组件
scrapy的重要组件spiser1概念2执行流程基类scrapySpider类的介绍属性方法spider的子类的介绍CrawlSpider类XMLFeedSpider类CSVFeedSpider类SitemapSpider类selector1简介2实例化3常用方法items1声明Itemitem pipelines1作用2编写方法字段验证例子将item写原创 2017-05-13 16:14:25 · 969 阅读 · 0 评论 -
2.1 scrapy框架的学习
1 scrapy框架的学习为什么学习scrapyscrapy简介优点scrapy的基本使用步骤1 用控制台建立项目并运行2 主要代码2.1 scrapy框架的学习1. 为什么学习scrapyScrapy是个框架,很多轮子不用自己这写了。 不过Scrapy比较“重”,如果是小型、单一的爬虫任务,我觉得自己重头写反而比较轻便快速,够用就好。刚开始学爬虫,建议先理解爬虫的几个模块,理解了原理原创 2017-05-12 16:28:00 · 837 阅读 · 0 评论 -
2.2 scrapy命令
2 scrapy命令全局命令项目命令2.2 scrapy命令Scrapy 命令 分为两种:全局命令 和 项目命令。全局命令:在哪里都能使用。项目命令:必须在爬虫项目里面才能使用。1.全局命令version 查看版本startproject 创建一个新的项目(project大于spider)用法:scrapy startproject tutorialshell 后跟某个页原创 2017-05-12 17:34:40 · 465 阅读 · 0 评论 -
1.6 网页解析器beautifulsoup
解析器的简介解析器的简介解析器选择结构化解析DOMBeautifulSoup介绍安装BeautifulSoup4beautifulsoup4语法BeautifulSoup实战解析器选择为了实现解析器,可以选择使用 1. 正则表达式、 2. html.parser、 3. BeautifulSoup、 4. lxml等,这里我们选择BeautifulSoup。其中,正则表达式基原创 2017-05-02 16:10:56 · 735 阅读 · 0 评论 -
1.5 网页下载器与urllib2模块(核心)
网页下载器网页下载器:将URL对应的网页以HTML下载到本地,用于后续分析常见网页下载器: 1. Python官方基础模块:urllib2 2. 第三方功能包:requestsurllib2模块urllib2下载网页的方法3种方法,一种比一种强大,后一种是在前一种的扩展: 1. 基本方法:直接URL 2. 添加data、http header 3. 添加特殊情景3种方法的详细介绍1. 基本原创 2017-05-02 15:53:01 · 899 阅读 · 0 评论 -
1.4 URL管理器
URL管理器的作用URL管理器的作用:管理待抓取URL集合和已抓取URL集合。防止重复循环抓取死循环。URL管理器的实现方式 URL管理器的实现方式有三种:适合个人的:内存 为啥用set()呢?因为:python的set可以自动去除重复的元素。小型企业或个人:关系数据库(永久存储或内存不够用) 用一个字段表示URL用另一个字段判断是否被爬取过。大型互联网公司:缓存数据库(高性能)原创 2017-05-02 15:47:36 · 2117 阅读 · 0 评论 -
1.3 爬虫架构
Python爬虫架构介绍 1. URL管理器管理着所有URL,把地址交给网页下载器去下载。 2. 下载的内容是一个String,由解析器 分析出有用的数据存储。 3. 解析器还可以解析出 String中的URL再交给URL管理器,进行下一步爬取。爬虫动态运行流程原创 2017-05-02 15:41:25 · 915 阅读 · 0 评论 -
2.7 汽车之家口碑爬虫
2.7 汽车之家口碑爬虫7 汽车之家口碑爬虫需求分析前端js反爬虫措施分析1问题描述2解决方法爬虫框架1 获取所有车型的id2本爬虫采用scrapy框架分析所需要的评论信息为3将常用设置写入sttings中结果展示1.需求分析因项目需求,要爬取汽车之家的口碑数据进行下一步分析。但是普通的爬虫软件(如八爪鱼、火车头、神箭手)无法爬取评论(...原创 2017-05-30 15:19:45 · 15226 阅读 · 13 评论