爬虫
文章平均质量分 67
饮月九尾
这个作者很懒,什么都没留下…
展开
-
爬虫框架Scrapy(西瓜皮)
Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。 其最初是为了 页面抓取 (更确切来说, 网络抓取 )所设计的, 也可以应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 或者通用的网络爬虫。 详细介绍见初窥Scrapy 下载Scrapy-2.4.1-py2.py3-none-any.whl (239.7 kB) 下载完把尾缀“whl”修改为“zip”,解压后扔到pytho原创 2021-03-11 18:02:00 · 263 阅读 · 0 评论 -
爬虫协议
这几天在爬网站时发现有个别网站抓取时返回值为None、[ ]甚至是字段中返回“系统错误”等字眼),反复确认代码无误,怀疑是网站有反爬虫机制,尝试增加header后依然无法提取,考虑到只是提取本页面数据,并没有频繁抓取数据,应该与抓取频率无关。 尝试查看网站的爬虫协议: Robots 协议(也称爬虫协议,机器人协议)是互联网爬虫的一项公认的道德规范,全称是“网络爬虫排除标准(Robots exclusion protocol)”,这个协议用来告诉引擎,哪些页面是可以抓取的,哪些不可以。 搜索引擎蜘蛛访问网站时原创 2021-03-05 11:15:38 · 3793 阅读 · 1 评论 -
Python爬虫获取网页数据笔记(一)
测试原创 2021-02-24 14:37:43 · 2165 阅读 · 0 评论