爬虫复习
YRyr.*
haha
展开
-
爬虫复习一(parse里面的几种用法/正则的用法/多字符匹配,贪婪模式/多字符匹配,非贪婪模式/正则的五种用法/)
正则“”". 匹配除了换行符之外的任意字符\d 匹配数字0-9 =>[0-9] => ^\D\D 匹配非数字\s 匹配空白字符(空格 \n \r \t)\S 匹配非空白字符\w 匹配单词字符[a-zA-Z0-9_]\W 匹配非单词字符^ 以…开头$ 以…结尾[0-9a-z] :表示匹配数字0~9,字母a~z[^a-z] : 不匹配a-z之间的字符#...原创 2019-09-09 08:47:11 · 560 阅读 · 0 评论 -
爬虫复习二(结构化数据 and 非结构化数据/数据提取方法/xpath解析/设置代理)
数据提取方法?1.正则表达式提取2.xpath解析3.BeautifulSoup4解析库xpath解析什么是xpath?XPath (XML Path Language) 是一门在 XML 文档中查找信息的语言,可用来在 XML 文档中对元素和属性进行遍历。**什么是XML?XML 指可扩展标记语言(EXtensible Markup Language)* XML 是...原创 2019-09-09 16:41:56 · 245 阅读 · 0 评论 -
BeautifulSoup4/ Pyquery解析库/线程
BeautifulSoup41.什么是BeautifulSoup4?和 lxml 一样,Beautiful Soup 也是python的一个HTML/XML的解析器,用它可以方便的从网页中提取数据。2.bs4在解析时依赖解析器?解析器 使用方法 优势 Python标准库 BeautifulSoup(markup,'html.parser') ...原创 2019-09-10 16:58:49 · 205 阅读 · 0 评论 -
描述一下下列符号在正则表达式中的含义?/HTTP与HTTPS的区别?/七层,五层,四层协议?/简述为什么会用到代理?/
进程原创 2019-09-11 14:48:17 · 317 阅读 · 0 评论 -
进程/协程/简述进程,线程的优缺点?
简单解释一下python的多线程与多进程,描述他们的优缺点以及使用的场景?首先线程是cpu执行的最小单元,进程包含线程,每一个进程下可以有多个线程,在python中存在一个全局解释器锁GIL,只有拿到了全局解释器锁的线程才会被cpu执行,所以说pythoon中的多线程是伪的多线程,线程之间的资源是共享的,我们一般会使用锁来保护资源,如果想充分利用cpu资源的话,我们会使用多进程,进程之间的...原创 2019-09-11 15:12:43 · 474 阅读 · 0 评论 -
scrapy_redis分布式爬虫总结 /// scrapy爬虫部署总结
scrapy_redis分布式安装pip3 install scrapy-redis工作流程原创 2019-09-21 16:12:53 · 461 阅读 · 0 评论