爬虫相关
harry5508
寒叶知秋,进阶中...
展开
-
一文看懂xml
先简单介绍下html、xml、xpath:1.html:超文本语言,用来展示数据。2.xml:可扩展标记语言,用来传输数据。仅仅是纯文本,标签可自定义。3.xpath:专门在xml中查找信息的语言。 XML 文档形成一种树结构XML 文档必须包含根元素。该元素是所有其他元素的父元素。XML 文档中的元素形成了一棵文档树。这棵树从根部开始,并扩展到树的最底端。所有元素...原创 2018-11-21 00:28:33 · 1699 阅读 · 0 评论 -
Python爬虫之对requests和urllib库的认识和使用(一)
目录一、认识requests和urllib工具库二、urllib的具体使用1.urllib的request模块的urlopen方法可以发送http请求,具体使用:2.使用response.read()可以获得响应体的内容,具体使用:3.设置请求头部信息:headers4.设置代理访问:ProxyHandler(防止ip被封)5.携带cookie访问(HTTPCoo...原创 2019-02-15 18:29:13 · 1503 阅读 · 0 评论 -
Python爬虫之对requests和urllib库的认识和使用(二)
上篇文章已经介绍了urllib库的基本使用,本篇博客介绍requests库的基本使用,爬虫极力推荐requests,看完你就明白辽~。学习之前推荐一个非常好的http测试网站:http://httpbin.org,提供非常非常完善的接口调试、测试功能~requests库的具体使用Python里默认是没有requests库滴,安装完Python需要手动安装requests库:p...原创 2019-02-18 18:29:27 · 408 阅读 · 0 评论 -
windows10配置chromedriver
问题:windows10使用selenium爬虫问题:chromedriver' executable needs to be in PATH之前一直再在Ubuntu18.04上爬取数据最近搬到win10上,运行报错。原因:没有正确配置chromedriver,找不到chromedriver路径解决:1.查看当前chrome浏览器版本浏览器输入:chrome://se...原创 2019-04-12 10:14:13 · 3324 阅读 · 1 评论