爬虫scrapy框架
沐雨金鳞
大行不顾细谨
展开
-
Windows10下安装Scrapy(Python3.6)
第一步:下载安装pywin32(图形化界面安装),查看自己的python版本,以便于选择合适的pywin32版本。这里python3.6版本,32bit。下载链接:下载地址第二步:安装lxmlpip install lxml第三步:下载安装twisted(命令行安装)下载链接:下载地址进入该文件所在文件夹,执行命令:pip install Twisted-18.9.0-cp36...原创 2018-12-29 16:03:38 · 219 阅读 · 0 评论 -
原 开启Scrapy项目之旅之六:爬取数据进入数据库
1、创建一个爬虫项目scrapy startproject mysqlpjt2、修改items.py文件#建立name存储网页标题name=scrapy.Field()#建立keywd存储网页标题keywd=scrapy.Field()3、修改pipelines.py文件(连接数据库关键)4、设置settings.py启用pipelines5、创建爬虫文件(crawl模板...原创 2018-12-30 21:19:50 · 539 阅读 · 0 评论 -
开启Scrapy项目之旅之:编写自动爬取网页的爬虫(当当为例)
1、创建一个爬虫项目scrapy startproject autopjt2、编写items.py文件我们只关注商品名、商品价格、商品链接、评论数3、编写好items.py文件后,还需要对爬取到的数据经进一步处理,比如存储到json文件中,于是此时编写pipelines.py文件实现。4、settings的编写a、打开settings.py文件进行pipelines部分相应设置...原创 2018-12-30 17:38:38 · 469 阅读 · 0 评论 -
开启Scrapy项目之旅之五:(爬虫文件)Spider的编写
Spider类是Scrapy中与爬虫相关的一个基类,所有的爬虫文件必须继承该类。爬虫文件:爬取动作以及数据提取操作利用gensipider命令创建一个爬虫文件我们首先创建一个爬虫项目scrapy startproject myfirstpjt进入该项目中(因为genspider命令为项目内命令)cd myfirstpjt创建爬虫文件scrapy genspider spider...原创 2018-12-30 09:33:48 · 1190 阅读 · 0 评论 -
开启Scrapy项目之旅之四:Items的编写
Scrapy中的Item对象:保存爬取到的提取出的结构化的数据爬取信息庞大,非结构化我们要将这样的数据提取出结构化的信息,这样便于处理1、规划好自己所需的结构化信息2、在对应爬虫项目的Items文件中进行定义做法:1、编辑器打开如myfirstpjt爬虫项目中的items.py文件。2、对结构化数据定义,直接修改对应的类定义结构化信息的格式如下:结构化数据名=scrapy.Fie...原创 2018-12-30 08:59:56 · 629 阅读 · 0 评论 -
开启Scrapy项目之旅之三:常用工具命令
原创 2018-12-30 08:59:40 · 304 阅读 · 0 评论 -
开启Scrapy项目之旅之二:用Scrapy进行项目爬虫管理
1、进入scrapy文件夹下,创建Scrapy项目scrapy startproject myfirstpjt2、进入自己创建的scrapy项目中:cd myfirstpjt进入后,我们可以对该爬虫项目进行管理,可以通过工具命令实现,下节介绍。3、爬虫项目管理就少不了日志文件。日志文件;用来记录用户所有操作的信息。在我们创建爬虫项目的时候就可以加上一些参数进行控制,如:1、sc...原创 2018-12-29 16:32:14 · 790 阅读 · 0 评论 -
开启Scrapy项目之旅之一:认识Scrapy项目的目录结构
创建一个爬虫项目,框架会自动:1、生成一个同名项目文件夹文件夹包括:同名子文件夹+scrapy.cfg文件2、同名子文件夹:核心代码scrapy.cfg文件:配置文件3、同名子文件夹:_init_py文件:项目的初始化文件,项目的初始化信息。items.py文件:数据容器文件,定义要获取的数据。pipelines.py文件:项目的管道文件,对items里面定义的数据进行进一步的加工...原创 2018-12-29 16:15:43 · 595 阅读 · 0 评论 -
爬虫-爬取智联招聘
1、直接模拟浏览器爬取时,发现爬取不到相关数据,查看爬取信息,发现需要的信息在js文件中2、获取js文件的请求URL3、点击每一页,发现URL的区别仅仅在于start的不同,并且每一页有90条数据4、爬取到js文件所有数据,发现js文件数据权威json格式5、下载jsonpath库,pip install jsonpath提取信息6、将jsonpath表达式提取的信息存进文档里面,下载...原创 2019-01-27 15:19:29 · 3167 阅读 · 8 评论