Scrapy
Jock2018
珞珈学子,公众号“每日学一技”。
展开
-
爬虫项目实战一:基于Scrapy+MongDB爬取并存储糗事百科用户信息
爬虫项目实战一:基于Scrapy+MongDB爬取并存储糗事百科用户信息一、前言二、项目目标三、项目的环境配置四、项目实现1. 创建QSBK项目2. 实现Spider1. 实现一页网页上的内容提取2. 实现翻页3. 实现items4. 设置pipelins用MongoDB存储数据五、项目总结1. 项目优点2. 项目不足六、一些这个项目相关的知识总结一、前言做这个小项目的初衷就是帮助自己初步掌握...原创 2019-03-20 20:38:25 · 1025 阅读 · 0 评论 -
Scrapy中XPath选择器的基本用法
Scrapy中XPath选择器的基本用法1、前言2、多级定位和跳级定位标签元素1. 多级定位2. 跳级定位3. 利用属性更加准确的定位标签4. 提取定位标签中的text信息5. 提取定位标签中的属性信息6. 参考资料1、前言本文是作为爬虫项目实战一:基于Scrapy+MongDB爬取并存储糗事百科用户信息的补充,所以本文的网页选择也是基于糗事百科展开。XPath主要使用在XML文档中选择节点,...原创 2019-03-21 00:49:45 · 22253 阅读 · 4 评论 -
基于Scrapy+MySQL爬取国家药监局100w+数据踩坑记录
基于Scrapy+MySQL爬取国家药监局100w+数据踩坑记录1. 网页请求返回json数据的处理2. Scrapy的Request中回调函数间的信息交流3. MySQL报错:pymysql.err.InternalError: (1046, '')3.1 打印一下sql语句,同时放入Navicat中执行。3.2 检查程序连接mysql的设置是否正确,打印出配置信息检查:4. pymysql报错...原创 2019-08-24 18:02:30 · 2355 阅读 · 1 评论