爬虫
文章平均质量分 71
sinat_18131557
这个作者很懒,什么都没留下…
展开
-
网络爬虫request.get方式获取图片(含多进程与IP代理方式)
@[TOC]网络爬虫request.get方式获取图片通过requests.get的方式获得url的信息可以用以下的方式:方式1:html = requests.get(url, headers=header, params=queryStringPara).text方式2:html = requests.get(url, headers=header, params=queryString...原创 2020-02-09 18:27:29 · 2690 阅读 · 0 评论 -
看文档学爬虫(9)——[实战]爬取酷狗TOP500数据
根据[实战]爬取酷狗TOP500数据[^src]文档信息整理目标需要到http://www.kugou.com/yy/rank/home/1-8888.html?from=rank链接获取酷狗TOP500数据保存排名,歌手名字,歌曲名,时常到Mongo数据库页面分析打开url链接:[^src] : http://f61be319.wiz03.com/share/s/3S6-cp1...原创 2019-07-28 17:30:22 · 374 阅读 · 0 评论 -
看文档学爬虫(8)——python与mongoDB
转自:http://f61be319.wiz03.com/share/s/3S6-cp1BIQ952yXKyj02PIM42fCaN43xwQQJ2_Xy000AleegNoSQL简介not only SQL非关系型数据库产品是传统关系型数据库的功能阉割版本, 通过减少用不到或很少用的功能, 来大幅度提高产品性能NOSQL是基于键值对的, 而且不需要经过SQL层的解析, 所以性能非常高。...转载 2019-07-28 15:50:36 · 235 阅读 · 0 评论 -
看文档学爬虫(7)——beautifulsoup
转自:http://f61be319.wiz03.com/share/s/3S6-cp1BIQ952yXKyj02PIM40CWSe611S4bm27j1H10IsfmpBeautiful Soup的简介Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。Beautiful Soup是一个工具箱,通过解析文档为用户提供需要抓取的数据, Be...转载 2019-07-28 12:14:39 · 151 阅读 · 0 评论 -
看文档学爬虫(6)——requests
转自:http://f61be319.wiz03.com/share/s/3S6-cp1BIQ952yXKyj02PIM43sCBdM2kcAzb2fp47L2J85Pp简介用python语言基于urllib编写requests是最简单易用的HTTP库安装pip install requests基本get请求无参数import requestsr = requests....转载 2019-07-28 11:12:15 · 157 阅读 · 0 评论 -
看文档学爬虫(5)——HTTP基础
转自:http://f61be319.wiz03.com/share/s/3S6-cp1BIQ952yXKyj02PIM41i7Vlj0nYA6c2RLOcv0Qp6rE什么是http超文本传输协议可以将html文件从web服务器传输到客户端浏览器应用层协议,位于TCP之上由请求和响应构成,是标准的客户端服务器模型为什么学习httphttp是整个web的基础爬虫必备IP、...转载 2019-07-28 10:44:36 · 115 阅读 · 0 评论 -
看文档学爬虫(4)——xpath选择器
什么是xpath选择器XML路径语言,拥有在数据结构树中查找节点的能力被开发者当作小型查询语言来使用XPath通过元素和属性进行导航为什么学习xpath支持html比正则表达式简单比正则表达式强大scrapyxpath基本概念节点父(Parent)子(Children)同胞(Sibling)先辈(Ancestor)后代(Descendant)路径表达式X...转载 2019-07-28 10:36:34 · 287 阅读 · 0 评论 -
看文档学爬虫(3)——CSS选择器
转自:http://f61be319.wiz03.com/share/s/3S6-cp1BIQ952yXKyj02PIM423MOKL3kakos2GmtSf0Uj_M2什么是CSS选择器一种快速定位元素的方法CSS选择器的基本用法用法示例说明**解释: 选择所有元素.class.intro解释: 选择所有class="intro"的元素#id#...转载 2019-07-27 23:19:54 · 125 阅读 · 0 评论 -
看文档学爬虫(2)——正则表达式
什么是正则表达式正则表达式就是记录文本规则的代码基本用法\:将下一个字符标记为一个特殊字符.d # 普通字符\d # 0-9 正整数s # 普通字符\s # 空白符,比如\t,\n定界符^:匹配输入字符串的开始位置$:匹配输入字符串的结束位置正则: ^123.*123$ # 匹配123hello123\b: 匹配一个单词边界,也就是指单词和空格间的位置teach...转载 2019-07-27 22:50:12 · 143 阅读 · 0 评论 -
看文档学爬虫(1)——python安装与运行
转自:http://f61be319.wiz03.com/share/s/3S6-cp1BIQ952yXKyj02PIM427o5ai1oSkpd2X-m8S33h83EPython下载官网: https://www.python.org/downloads/windows/安装配置环境路径我的电脑==>属性==>高级==>环境变量==>系统变量中的PATH...转载 2019-07-27 22:25:21 · 132 阅读 · 0 评论 -
看文档学爬虫(11)——异步加载
转自:http://f61be319.wiz03.com/share/s/3S6-cp1BIQ952yXKyj02PIM43QcqFo3DzAbT2Y6fvo3IV3SQ什么是异步加载异步加载就是在浏览网页时候,通过继续加载一部分内容,而非后续全部内容的方式。示例import requestsimport refrom bs4 import BeautifulSoupheader...转载 2019-07-28 22:04:34 · 146 阅读 · 0 评论 -
看文档学爬虫(10)——多进程爬虫
信息来源与多进程爬虫1加以整理多进程介绍一个进程就是个一个程序, 运行一个脚本文件, 跑多个程序可以提升爬虫效率进程与线程的区别线程是程序执行的最小单位,而进程是操作系统分配资源的最小单位;一个进程由一个或多个线程组成,线程是一个进程中代码的不同执行路线进程之间相互独立,但同一进程下的各个线程之间共享程序的内存空间(包括代码段,数据集,堆等)及一些进程级的资源(如打开文件和信...原创 2019-07-28 19:40:18 · 190 阅读 · 0 评论