爬虫
文章平均质量分 92
豆豆orz
听一曲风声,画两道身影,说三生有幸遇见你。
展开
-
Python网络爬虫基础
1.什么是爬虫爬虫,即网络爬虫,大家可以理解为在网络上爬行的一直蜘蛛,互联网就比作一张 大网,而爬虫便是在这张网上爬来爬去的蜘蛛咯,如果它遇到资源,那么它就会抓取下来。2.浏览网页的过程在用户浏览网页的过程中,我们可能会看到许多好看的图片,比如 http://image.baidu.com/ ,我们会看到几张的图片以及百度搜索框, 这个过程其实就是用户输入网址之后,经过DNS服务器,找到服务器原创 2017-08-27 16:36:17 · 673 阅读 · 0 评论 -
001 爬虫环境配置
一、Python3 + pip 环境配置1.Windows下载安装anaconda(anaconda清华镜像)Pycharm专业版2.Linux sudo apt-get install python3-dev build-essential libssl-dev libffi-dev libxml2 libxml2-dev libxslt1-dev zlib1g-dev sud原创 2017-11-01 22:12:31 · 396 阅读 · 0 评论 -
002 爬虫基本原理(基础篇)
一、爬虫基本原理1.什么是爬虫? 请求网站并提取数据的自动化程序2.爬虫基本流程 发起请求 通过HTTP库向目标站点发起请求,即发送一个Request,请求可以包含额外的headers等信息,等待服务器响应。 获取响应内容 如果服务器能正常响应,会得到一个Response,Response的内容便是所要获取的页面内容,类型可能有HTM原创 2017-11-01 22:13:21 · 287 阅读 · 0 评论 -
003 Urllib库的使用
二、Urllib库的基本使用1.Urllib是一个Python内置的HTTP请求库urllib.request 请求模块urllib.error 异常处理模块urllib.parse url解析模块urllib.robotparser robots.txt解析模块2.与Python2的变化 Python2import urllib2response = urllib2.urlopen(原创 2017-11-01 22:14:00 · 236 阅读 · 0 评论 -
004 request库的使用
三Requests库详解Requests安装Requestsrequests实例引入各种请求方式请求基本GET请求带参数的GET请求解析json获取二进制数据添加headers基本POST请求响应response属性状态码判断高级操作文件上传cookie会话维持证书验证代理设置超时设置认证设置异常处理三、Requests库详解1.Requests原创 2017-11-01 22:15:01 · 273 阅读 · 0 评论 -
005 爬虫之正则表达式
什么是正则表达式正则表达式常见匹配模式rematch从第一个字符开始匹配最常规的匹配泛匹配匹配目标贪婪匹配非贪婪匹配匹配模式转义总结research从扫描到的第一个开始匹配总结匹配演练refindallresubrecompile项目实战1.什么是正则表达式正则表达式就是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定的字符、以及这些特定字符的组合,组成一原创 2017-11-01 22:15:45 · 347 阅读 · 0 评论 -
006 Beautifulsoup
什么是BeautifulSoup安装用法详解Beautiful解析库基本使用标签选择器选择元素获取名称获取属性获取内容嵌套选择子节点和子孙节点父节点和先祖节点兄弟节点标准选择器find_allnamerecursivetextkwargsfindnameattrsrecursivetextkwargsCSS选择器通过标签名查找通过类名查找通过 id 名查找组原创 2017-11-01 22:18:47 · 253 阅读 · 0 评论 -
007 PyQuery
安装PyQueryPyQuery初始化字符串初始化URL初始化文件初始化基本CSS选择器查找元素子元素父元素官方文档1.安装PyQuery pip install pyquery2.PyQuery1.初始化1.字符串初始化html = '''<div> <ul> <li class="item-0">first item</li>原创 2017-11-01 22:20:36 · 180 阅读 · 0 评论 -
爬虫系列8解析robots.txt
import robotparser rp = robotparser.RobotFileParser() rp.set_url('url/robot.txt') rp.read()user_agent = 'Spider' rp.can_fetch(user_agent, url)Boolean变量可以检测代理是否可以爬取原创 2017-11-13 11:27:27 · 486 阅读 · 0 评论