爬虫
浅吻@
这个作者很懒,什么都没留下…
展开
-
爬虫第一篇
爬虫1.环境:安装Anconda,是一个科学计算的集成开发环境(集成了好多库,ipython等)2.chrome浏览器插件:XPath Helper,Proxy-SwitchyOmega-Chromium-2.5.153.爬虫的请求模块:1、版本1、python2 :urllib、urllib22、python3 :urllib.request2.urllib.request 用法...原创 2019-12-02 19:41:04 · 356 阅读 · 0 评论 -
爬虫第七篇(scrapy 框架简介)
文档地址:https://scrapy-chs.readthedocs.io/zh_CN/0.24/topics/signals.htmlscrapy 框架简介Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架,用途非常广泛框架的力量,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片,非常之方便Scrapy架构图[外...原创 2019-12-02 19:39:31 · 303 阅读 · 0 评论 -
爬虫第六篇
爬虫第六篇python采用 多进程/多线程/协程 写爬虫从操作系统的角度:进程和线程,都是一种CPU的执行单元。进程:表示一个程序的上下文执行活动(打开、执行、保存…)线程:进程执行程序时候的最小调度单位(执行a,执行b…)一个程序至少有一个进程,一个进程至少有一个线程。并行:多个CPU核心,不同的程序就分配给不同的CPU来运行。可以让多个程序同时执行并发:单个CPU核心,在一个时...原创 2019-12-02 19:39:45 · 217 阅读 · 0 评论 -
爬虫第五篇
爬虫第五篇BeautifulSoup + requests库使爬虫变得非常的简单BeautifulSoup库通俗来说是解析、遍历、维护“标签树”(例如html、xml等格式的数据对象)的功能库Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完整...原创 2019-12-02 19:39:59 · 223 阅读 · 0 评论 -
爬虫第四篇
爬虫第四篇Ajax的动态加载处理方法对于json格式的相应,如果页面是ajax动态加载的,可用通过设置它的limit(每次页面加载的数量)巧妙的避开,也可以通过自动化工具selenium来处理ajax的动态加载import requestsimport jsonimport pymysqlclass DoubanSpider: def __init__(self): ...原创 2019-12-02 19:40:12 · 623 阅读 · 0 评论 -
爬虫第三篇
爬虫第三篇requests模块get请求import requests# 1.发get请求res = requests.get(url,params,headers,proxies,auth,verify,timeout)# 2.响应 编码格式res.encoding = "utf-8"# 3. 获取htmlhtml = res.textrequests.get(url,p...原创 2019-12-02 19:40:25 · 251 阅读 · 0 评论 -
爬虫第二篇
爬虫第二篇1.将爬取的数据存入数据库1. Anaconda安装模块 1. 进入到Anaconda Prompt终端(管理员身份) 2. 执行安装命令 conda install pymongo conda install pymysql 2. 远程存入MySQL数据库 1. 开启远程连接, 注释掉: # bind-address=127.0....原创 2019-12-02 19:40:36 · 328 阅读 · 0 评论