python爬虫
文章平均质量分 59
spirit_artist
这个作者很懒,什么都没留下…
展开
-
爬虫的基础知识
爬虫的概念 网络爬虫(网页蜘蛛,网络机器人)就是模拟浏览器发送网络请求,接收响应,一种按照一定的规则自动的爬取互联网信息的程序. 理论上来说,只要浏览器能做的事情,原则上爬虫都能爬取爬虫分类通用爬虫搜索引擎爬虫,面向整个互联网上所有的网站聚焦爬虫针对特定的网站爬虫ROBOTS协议 网站通过Robots协议高速搜索引擎哪些页面可以...原创 2018-04-01 14:35:28 · 323 阅读 · 0 评论 -
Scrapy 框架简单介绍
scrapy框架Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架,用途非常广泛。框架的力量,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片,非常之方便。Scrapy 使用了 Twisted(其主要对手是Tornado)异步网络框架来处理网络通讯,可以加快我们的下载速度,不用自己去实现异步框架,并且包含了各种中间件接口...原创 2018-04-13 19:46:07 · 3004 阅读 · 0 评论 -
requests库的使用
Requests库 requests库底层实现是有urllib requests在python2和python3中通用 其作用是发送网络请求,返回响应数据 中文文档 API: http://docs.python-requests.org/zh_CN/latest/index.html如何发送请求 r...原创 2018-04-06 18:33:02 · 785 阅读 · 0 评论 -
selenium例子--模拟百度搜索
# coding=utf-8from selenium import webdriverimport time#实例化一个浏览器driver = webdriver.Chrome()# driver = webdriver.PhantomJS()#设置窗口大小# driver.set_window_size(1920,1080)#最大化窗口driver.maximize_w...原创 2018-04-12 18:03:39 · 2012 阅读 · 0 评论 -
爬虫--selenium和PhantomJS
#现阶段爬虫已经能够爬取大部分网页,但仍有一部分不能完成爬取,为了反反爬虫,给出建议尽量减少请求次数 能抓列表页就不抓详情页尽量保存html页面,为排错和重复请求使用关注网站所有的类型页面 wap页面,如百度贴吧极简版h5页面app多伪装 动态的User-Agent使用代理ip 为放置多次请求封ip能不用cookie就不用利用多线程分布式 在不被禁止的情况下,尽可能...原创 2018-04-12 09:01:35 · 828 阅读 · 0 评论 -
多线程--爬虫--嗅事百科
# coding=utf-8import requestsfrom lxml import etreeimport threadingfrom queue import Queueclass QiubaiSpdier: def __init__(self): self.url_temp = "https://www.qiushibaike.com/8hr/pag...原创 2018-04-10 19:19:21 · 265 阅读 · 0 评论 -
多线程爬虫
多线程爬虫需要用到queue队列对象,这个模块将在后续文章中总结,这里仅仅说用法Queue(队列对象) Queue是python中的标准库,可以直接用import Queue来引用,队列是线程之间最为常用的数据交换形式Queue中常用的方法Queue.qsize() # 返回队列的大小Queue.empty() # 如果队列为空,返回true,反之返回false...原创 2018-04-10 19:18:14 · 229 阅读 · 0 评论 -
爬虫 --xpath运用--嗅事百科
# coding=utf-8import requestsfrom lxml import etreeclass QiubaiSpdier: def __init__(self): self.url_temp = "https://www.qiushibaike.com/8hr/page/{}/" self.headers = {"User-Age...原创 2018-04-10 18:55:11 · 435 阅读 · 0 评论 -
爬虫小结
实现爬虫的套路首先准备url,明确爬取的目标准备start_urlurl地址规律不明显,总数不确定的话,用正则或者xpath提取通过代码提取下一页urlxpath寻找url地址,部分参数会在当前响应中,如当前页码数或者页码总数准备url_list页码数明确url规律明显发送请求,获取响应添加随机User-Agent,反反爬虫添加随机的代理ip地址,反反爬虫如果被对...原创 2018-04-10 18:53:01 · 278 阅读 · 0 评论 -
xpath--贴吧爬虫
# coding=utf-8import requestsfrom lxml import etreeimport jsonclass TiebaSpider: def __init__(self,tieba_name): self.tieba_name = tieba_name self.start_url = "http://tieba.bai...原创 2018-04-09 20:07:42 · 1173 阅读 · 0 评论 -
数据提取--xpath
什么是xpath XPath (XML Path Language) 是一门在 XML 文档中查找信息的语言,可用来在 XML 文档中对元素和属性进行遍历。 W3School官方文档:http://www.w3school.com.cn/xpath/index.asp节点的选取XPath 使用路径表达式来选取 XML 文档中的节点或者节点集。这些路径表达式和我们在常规的...原创 2018-04-09 20:05:11 · 1294 阅读 · 0 评论 -
json--数据提取--内涵段子
# coding=utf-8import requestsimport jsonclass DoubanSpider: def __init__(self): self.url_temp_list = [ { "url_temp": "https://m.douban.com/rexxar/api/v2/sub...原创 2018-04-09 19:49:30 · 995 阅读 · 0 评论 -
爬虫提取数据--JSON
JSON JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式,它使得人们很容易的进行阅读和编写。同时也方便了机器进行解析和生成。适用于进行数据交互的场景,比如网站前台与后台之间的数据交互。 官方文档:http://docs.python.org/library/json.html Json在线解析网站:http://www.j...原创 2018-04-09 19:44:45 · 10606 阅读 · 0 评论 -
正则例子---爬取内涵段子
正则例子,爬取内涵段子# coding=utf-8import requestsimport reimport jsonclass Neihan: def __init__(self): self.start_url = "http://neihanshequ.com/" self.next_url_temp = "http://neiha...原创 2018-04-09 19:13:08 · 372 阅读 · 0 评论 -
爬虫数据的提取--正则
数据的提取 简单的说,数据提取就是从响应中获取我们想要的数据的过程数据的分类非结构化的数据:html等处理方法:正则,xpath结构化的数据:json,xml等处理方法:转化为python数据类型正则表达式 正则表达式又称为规则表达式,通常被用来检索和替换哪些符合某个规则的文本 正则表达式匹配规则python中的re模块py...原创 2018-04-09 19:10:30 · 2164 阅读 · 2 评论 -
MongoDB数据库基本操作
MongoDB与mysql SQL术语/概念 MongoDB术语/概念 解释/说明 database database 数据库 table collection 数据库表/集合 row document 数据记录行/文档 column field 数据字段/域 index index 索引 ...原创 2018-04-14 14:33:31 · 265 阅读 · 0 评论 -
HTTP和HTTPS相关
HTTP+HTTPSHTTP是一个客户端终端(用户)和服务器端(网站)请求和应答的标准(TCP)。通过使用网页浏览器、网络爬虫或者其它的工具,客户端发起一个HTTP请求到服务器上指定端口(默认端口为80)。我们称这个客户端为用户代理程序(user agent)。应答的服务器上存储着一些资源,比如HTML文件和图像。我们称这个应答服务器为源服务器(origin server)。在用户代理和源服...原创 2018-04-01 15:49:26 · 1059 阅读 · 0 评论 -
多线程爬取豆瓣用户
多线程爬豆瓣用户import threadingimport timeimport requestsfrom pymongo import MongoClientimport jsonclass myThread(threading.Thread): # 继承父类threading.Thread def __init__(self, url): threa...原创 2019-08-07 10:41:00 · 533 阅读 · 0 评论