爬虫
文章平均质量分 61
Jock2018
珞珈学子,公众号“每日学一技”。
展开
-
【爬虫实战】Scrapy + xpath 爬取江西省 23 万+挂网药品数据
声明本爬虫仅供学习交流使用,请勿用作商业用途。爬取的时候注意控制速度,勿对网站造成攻击。1. 实现说明该政府网站没有任何反爬虫措施,直接抓取即可,注意不要对网站造成攻击。思路:通过 scrapy 抓取网页;利用 xpath 解析网页,提取药品信息;将提取的信息写入 csv 文件;观察网页结构,构造下一页 url;新的 url 重复 1-4 步。2. 一些细节说明主要参考文档:Scrapy 官方文档Scrapy 中 xpath 的使用使用的一些命令:创建一个 scrap原创 2021-10-20 23:42:56 · 734 阅读 · 2 评论 -
爬虫入门学习(二)正则表达式及re模块的运用
Day 2【Datawhale】爬虫入门学习——正则表达式及re模块的运用1 正则表达式的基础知识1.1 原子1.2 元字符1.3 模式修正1.4 贪婪模式与懒惰模式2 re模块常见函数2.1 re.match()2.2 re.search()2.3 re.findall()2.3 re.sub()3 参考资料1 正则表达式的基础知识正则表达式:自定义的规则,用来描述字符串的排列,也称为模式表...原创 2019-04-07 18:09:15 · 472 阅读 · 0 评论 -
爬虫入门学习(三)基于requests+re抓取豆瓣Top250电影信息
Day 3【Datawhale】爬虫入门学习——实战一抓取豆瓣Top250电影信息1 目标2 思路3 完整源码4 存在的问题1 目标基于requests+re爬取https://movie.douban.com/top250要求抓取名次、影片名称、年份、导演等字段,并存储为".CSV"文件。2 思路Step1 先爬取一页里面的信息Step2 实现翻页爬取多页信息3 完整源码#!...原创 2019-04-08 09:24:38 · 1123 阅读 · 0 评论 -
爬虫入门学习(六)Selenium学习与实战
@[TOC](爬虫入门学习()(六)Selenium学习与实战 )1 Selenium简介及应用场景简介Selenium是一个用于测试网站的自动化测试工具,利用它可以驱动浏览器执行特定的动作(即模拟人的操作),如点击、下拉等。它支持各种浏览器包括Chrome、Firefox、Safari等主流界面浏览器,同时也支持phantomJS无界面浏览器。应用场景(针对爬虫)正对一些JavaSc...原创 2019-04-11 21:57:43 · 758 阅读 · 0 评论 -
爬虫入门学习(四)BeautifulSoup学习与实战
Day 4【Datawhale】爬虫入门学习——学习BeautifulSoup1 学习BeautifulSoup基本使用2 项目实战 ——不登录爬取丁香园论坛的回复信息2.1 目标2.2 思路2.3 完整代码1 学习BeautifulSoup基本使用大家可以参考我之前的一篇文章学习笔记——Beautiful Soup库的安装与基本使用方法和官方文档。大家可以从以下角度来考虑对于Beautif...原创 2019-04-08 21:45:20 · 379 阅读 · 0 评论 -
爬虫入门学习(七)IP学习与代理池构建
爬虫入门学习(七)IP学习与代理池构建 1 IP简介2 IP被封的原因3 应对IP被封的策略3.1 伪造User-Agent3.2 设置线程等待sleep()3.3 伪造Cookies3.4 使用代理4 抓取西刺代理,并构建自己的代理池5. 参考资料1 IP简介互联网协议地址(英语:Internet Protocol Address,又译为网际协议地址),缩写为IP地址(英语:IP Addre...原创 2019-04-12 13:52:53 · 758 阅读 · 0 评论 -
爬虫入门学习(五)XPath学习与实战
Day 5【Datawhale】爬虫入门学习——学习XPath 1 学习XPath1.1 什么是XPath1.2 节点及节点的关系1.3 XPath语法1.4 XPath 轴(Axes)1.5 获取文本和属性信息2 项目实战——基于lxml+XPath+requests不登录爬取丁香园论坛的回复信息2.1 目标2.2 思路3 完整代码4 参考资料1 学习XPath1.1 什么是XPathXP...原创 2019-04-09 15:29:45 · 529 阅读 · 0 评论 -
【错误】Selenium报错:Element is not clickable at point(x, y)原因及解决办法汇总
【错误】Selenium报错:Element is not clickable at point(x, y)原因及解决办法汇总1. 背景2. 问题简述(可以略过)2. 最大化浏览器窗口3. 元素还未加载4. 元素在iframe里面5. 不在视图,下拉滚动条6. 元素被覆盖7. 参考资料1. 背景因为最近在组队学习爬虫,需要用Selenium模拟登录丁香园,其中在尝试运行一位小伙伴的代码的时候,...原创 2019-04-13 09:46:05 · 6498 阅读 · 0 评论 -
爬虫入门学习(八)模拟登录丁香园论坛爬取用户信息
爬虫入门学习(八)实战大项目模拟登录丁香园爬取信息 1 目标2 思路3 主要的技术点3.1 模拟登录3.2 抓取用户个人主页4 完整代码5 一些尚待解决的问题1 目标模拟登录丁香园,并抓取页面所有人员的基本信息和回复贴子内容。2 思路模拟登录丁香园论坛抓取评论和用户的个人主页链接抓取用户个人主页信息数据存储3 主要的技术点3.1 模拟登录模拟登录元素定位基本问题不大。遇到的...原创 2019-04-14 08:33:04 · 1391 阅读 · 0 评论 -
利用Python爬取中国科学技术部人类遗传资源管理7000+数据
利用Python爬取中国科学技术部人类遗传资源管理7000+数据一、需求分析1. 目的2. 需求分析方法一方法二二、爬虫实现1. 整体思路2. 抓取每张表格的网址3. 抓取每张表格的网页4. 解析爬取到的网页5. 保存数据到Excel6. 完整代码三、总结一、需求分析1. 目的把中国科学技术部网站下,科技部门户 > 办事服务 > 行政许可 > 人类遗传资源管理 > 结...原创 2019-08-02 22:22:05 · 854 阅读 · 0 评论 -
基于Scrapy+MySQL爬取国家药监局100w+数据踩坑记录
基于Scrapy+MySQL爬取国家药监局100w+数据踩坑记录1. 网页请求返回json数据的处理2. Scrapy的Request中回调函数间的信息交流3. MySQL报错:pymysql.err.InternalError: (1046, '')3.1 打印一下sql语句,同时放入Navicat中执行。3.2 检查程序连接mysql的设置是否正确,打印出配置信息检查:4. pymysql报错...原创 2019-08-24 18:02:30 · 2346 阅读 · 1 评论 -
爬虫入门学习(一)GET与POST请求
Day 1【Datawhale】爬虫入门学习——GET与POST请求1. GET和POST请求1.1GET和POST的简单理解1.2 二者的区别2. 请求头2.1 请求头的概念3 响应状态码4 响应头5 使用urllib实现请求6 使用requests库实现请求1. GET和POST请求1.1GET和POST的简单理解GET和POST都是向服务器请求网页内容。不过这两者的区别还是挺大的。G...原创 2019-04-07 17:09:14 · 1028 阅读 · 0 评论 -
学习笔记之——单元1:Requests库入门
学习笔记之——单元1:Requests库入门一、Requests库的安装1. Windows下Requests的安装二、HTTP协议1. HTTP基本概念2. HTTP协议对资源的操作三、Response对象的属性、异常处理及通用爬虫代码框架四、Requests库的方法1. Requests库的requests.get()方法2. Requests库的requests.head()方法3. Req...原创 2019-01-18 00:54:44 · 631 阅读 · 0 评论 -
基于Request+bs4-re技术路线实现股票数据定向爬虫
基于Request+bs4-re技术路线实现股票数据定向爬虫一、功能描述1. 目标2. 可行性分析3. 技术路线选择4. 项目的技术难点二、程序结构设计三、程序整体框架四、程序功能的实现五、程序的优化六、代码的进一步优化七、心得体会一、功能描述1. 目标获取上交所和深交所所有股票的名称和交易信息,并保存到txt文件中。2. 可行性分析查看网页源代码,看所需要的信息是否在HTML源代码中...原创 2019-01-24 00:55:41 · 1008 阅读 · 1 评论 -
学习笔记之——网络爬虫的Robots协议
学习笔记之——网络爬虫的Robots协议一、 网络爬虫的尺寸二、爬虫的风险三、网络爬虫限制四、Robots协议1. Robots协议2. Robots协议的遵守方式五、参考资料一、 网络爬虫的尺寸小规模、数据量小,爬取速度不敏感,Requests库,>90%——爬去网页,玩转网页。中规模,数据规模较大,爬取速度敏感,Scrapy库——爬取网站,爬取系列网站。大规模,搜索引擎,爬取速...原创 2019-01-18 23:46:20 · 1278 阅读 · 0 评论 -
学习笔记之——Requests库网络爬虫实战(5个实例)
学习笔记之——Requests库网络爬虫实战(5个实例)一、前言二、实战1——京东商品页面的爬取三、实战2——亚马逊商品页面的爬取四、实战3——百度/360搜索关键词提交五、实战4——网络图片的爬取和存储六、实战5——IP地址归属地的自动查询七、HTTP和HTTPS的区别与联系八、参考资料一、前言代码的可靠和稳定非常重要,在工程要求上,代码要时刻考虑代码执行过程中可能出现的问题,并对问题做处理...原创 2019-01-19 02:05:37 · 1390 阅读 · 0 评论 -
Python3.7 scrapy遇到async和ModuleNotFoundError: No module named ‘win32api‘报错的解决方案
Python3.7 scrapy遇到async和ModuleNotFoundError: No module named 'win32api'报错的解决方案一、运行环境二、解决Python3.7 scrapy的async报错三、Python3.7 scrapy遇到ModuleNotFoundError: No module named 'win32api'报错四、参考资料一、运行环境Windo...原创 2019-01-20 20:58:06 · 1401 阅读 · 0 评论 -
学习笔记——Beautiful Soup库的安装与基本使用方法
学习笔记——Beautiful Soup库的安装与基本使用方法一、Beautiful Soup库的安装1. 安装过程很简单,如下:2. 测试二、Beautiful Soup库的基本元素1. Beautiful Soup库的理解2. Beautiful Soup库的的导入3. Beautiful Soup库的解析器4. BeautifulSoup类的基本元素1. tag——标签,最基本的信息组织单元...原创 2019-01-22 09:59:13 · 2456 阅读 · 0 评论 -
基于Request+bs4技术路线实现中国大学排名定向爬虫
中国大学排名定向爬虫实战一、前期准备1. 功能描述2. 定向爬虫可行性分析3. 程序结构设计二、代码的实现1. 函数的框架实现2. 函数功能实现,完成代码三、代码优化问题1. 优化apparent_encoding问题2. 输出结果的中文对齐问题四、回顾与总结1. 本爬虫的技术难点:2. 个人的一些体会五、参考资料一、前期准备1. 功能描述爬取2018年中国最好大学的排名,中国最好大学排名2...原创 2019-01-22 15:58:24 · 871 阅读 · 0 评论 -
爬虫实战一基于Python3的urllib+re模块爬取糗事百科
爬虫实战一基于Python3的urllib+re模块爬取糗事百科一、目标二、设计思路三、直接上代码四、一些小结一、目标抓取糗事百科上的段子实现每按一次回车显示一个段子的页数、发布人,好笑数,评论数,内容。二、设计思路本爬虫是基于崔庆才大佬的博客迁移而来,可以说是用python3把原教程重新实现了一次。具体过程参照点这里主要的改变在于:删去了过滤图片的部分代码,因为网站发生了变化...原创 2019-03-15 17:39:02 · 496 阅读 · 0 评论 -
爬虫项目实战一:基于Scrapy+MongDB爬取并存储糗事百科用户信息
爬虫项目实战一:基于Scrapy+MongDB爬取并存储糗事百科用户信息一、前言二、项目目标三、项目的环境配置四、项目实现1. 创建QSBK项目2. 实现Spider1. 实现一页网页上的内容提取2. 实现翻页3. 实现items4. 设置pipelins用MongoDB存储数据五、项目总结1. 项目优点2. 项目不足六、一些这个项目相关的知识总结一、前言做这个小项目的初衷就是帮助自己初步掌握...原创 2019-03-20 20:38:25 · 1016 阅读 · 0 评论 -
Scrapy中XPath选择器的基本用法
Scrapy中XPath选择器的基本用法1、前言2、多级定位和跳级定位标签元素1. 多级定位2. 跳级定位3. 利用属性更加准确的定位标签4. 提取定位标签中的text信息5. 提取定位标签中的属性信息6. 参考资料1、前言本文是作为爬虫项目实战一:基于Scrapy+MongDB爬取并存储糗事百科用户信息的补充,所以本文的网页选择也是基于糗事百科展开。XPath主要使用在XML文档中选择节点,...原创 2019-03-21 00:49:45 · 22157 阅读 · 4 评论 -
09精通Python网络爬虫——糗事百科爬虫实战
运行环境Python3。6.4目的:爬取糗事百科网页上的一些段子解决思路:1)分析各页间的网址规律,构造网址变量,并通过for循环实现多页内容的爬取。2)构建一个自定义函数,专门用来实现爬取某个网页上的段子,包括两部分内容,一部分是对应用户,一部分是用户发表的段子内容,用户信息和段子内容信息的格式分别写成两个正则表达式。随后根据正则表达式分别提取出来该页中所用的用户...原创 2018-03-31 00:10:48 · 405 阅读 · 0 评论