爬虫
文章平均质量分 59
cs_xuhuan
这个作者很懒,什么都没留下…
展开
-
【spider01】Urllib
UrllibUrllib详解–什么是urllib?python内置的http请求库urllib.requests 请求模块urllib.error 异常处理模块urllib.parse url解析模块urllib.robotparse robots.txt解析模块urlopenurllib.request.urlopen(url,data=None,[timeout,]*,caf...原创 2018-09-25 18:21:05 · 6786 阅读 · 0 评论 -
【spider03】正则表达式
什么是正则表达式正则表达式是对字符串操作的一种逻辑公式,就是用实现定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。非Python独有,re模块实现tool.oschina.net 在线正则表达式测试常见匹配模式^ 匹配字符串的开头$ 匹配字符串的末尾。. 匹配任意字符,除了换行符,当re.DOTALL标记被指定时,...原创 2018-09-25 18:24:13 · 177 阅读 · 0 评论 -
【spider04】BeautifulSoup
BeautifulSoup灵活又方便的网页解析库,处理高效,支持多种解析器。利用它不用编写正则表达式即可方便实现网页信息的提取。解析器:Python标准库使用方法:BeautifulSoup(markup, “html.parser”)优势:Python的内置标准库 执行速度适中 文档容错能力强劣势:Python 2.7.3 or 3.2.2)前 的版本中文档容错能力差解析器:lxm...原创 2018-09-25 18:26:06 · 131 阅读 · 0 评论 -
【spider05】PyQuery
PyQuery强大又灵活的网页解析库。如果你觉得正则写起来太麻烦,如果你觉得BeautifulSoup语法太难记,如果你熟悉jQuery的语法,那么PyQuery就是你的绝佳选择。初始化字符串初始化html = '''<div> <ul> <li class="item-0">first item</li> ...原创 2018-09-25 18:28:36 · 102 阅读 · 0 评论 -
【spider06】Selenium
Selenium自动化测试工具,支持多种浏览器。爬虫中主要用来解决JavaScript渲染的问题。基本使用from selenium import webdriverfrom selenium.webdriver.common.by import Byfrom selenium.webdriver.common.keys import Keysfrom selenium.webdri...原创 2018-09-25 18:31:23 · 12085 阅读 · 0 评论 -
【spider】Python爬虫爬取Yohobuy网站数据
主要使用selenium爬取有货网鞋靴类商品数据,运用mongodb对数据进行存储,数据处理部分参照yohobuy数据处理#spider.pyfrom selenium import webdriverfrom selenium.common.exceptions import TimeoutExceptionfrom selenium.webdriver.common.by import...原创 2018-09-25 19:05:08 · 374 阅读 · 0 评论 -
【spider02】requests
什么是Requests?Requests使用Python语言编写,基于urllib,采用Apache2 Licensed 开源协议的HTTP库。它比urllib更加方便,完全满足HTTP测试需求。import requestsresponse = requests.get('https://www.baidu.com/')print(type(response))print(resp...原创 2018-09-26 22:10:35 · 509 阅读 · 0 评论