PYTHON
Ice_cap1995
欢迎转载,记得给个链接就好
展开
-
Python爬虫学习日记一 爬取
Python爬虫学习日记 冰冠 2018年06月13日15:58:111、检查robots.txt 通过检查该文件可以让爬虫了解爬取该网站时存在哪些限制,可以最小化爬虫背封禁的可能2、检查网站地图 网站提供的sitemap文件可以帮助爬虫定位网站最新的内容,而无需爬取每一个网页 需要注意的是该文件经常存在缺失、过期、或不完整的问题3、估算网站的大小 目...原创 2018-06-13 20:23:30 · 545 阅读 · 0 评论 -
Python爬虫学习日记二 抓取
Python爬虫学习日记二 冰冠 2018年06月14日08:59:27从网页中抽取数据,实现某些事情的做法成为抓取(scraping)1、分析网页数据 通过各种web开发者工具可以进行分析2、三种网页抓取方法 2.1正则表达式 有关正则表达式的内容具体请看 2.2Beautiful ...原创 2018-06-14 14:26:37 · 339 阅读 · 0 评论 -
正则表达式 Regular Expression
正则表达式 Regular Expression 简称RegexJavascript中 g(global)表示全局 i表示不区分大小写 .可以匹配任何一个单位的字符 []用于定义字符集合 ^取非元字符 [\b] Backspace键(退格) \n 换行符 ...原创 2018-06-14 16:27:48 · 229 阅读 · 0 评论 -
Python爬虫学习日记四 并行下载
Python爬虫学习日记四 并行下载 冰冠 2018年06月19日10:38:56爬取网站:https://www.alexa.com/topsites1、解析ALexa列表 Alexa网站列表是以电子表格的形式提供的,表格分为两列,排名 与 域名 抽取步骤 ...原创 2018-06-23 11:53:05 · 415 阅读 · 0 评论 -
Python爬虫学习日记三 缓存支持
Python爬虫学习日记三 冰冠 2018年06月15日14:22:061、为链接爬虫添加缓存支持 修改第一天中的download函数,在url下载之前进行缓存检查,另外,需要把限速功能移至函数内部,只有在真正发生下载时才会触发缓存,在加载缓存时不会触发。#!/usr/bin/env python3 # -*-...原创 2018-06-19 09:30:26 · 703 阅读 · 0 评论