自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(16)
  • 收藏
  • 关注

转载 Python yield 使用浅析

您可能听说过,带有 yield 的函数在 Python 中被称之为 generator(生成器),何谓 generator ?我们先抛开 generator,以一个常见的编程题目来展示 yield 的概念。如何生成斐波那契數列斐波那契(Fibonacci)數列是一个非常简单的递归数列,除第一个和第二个数外,任意一个数都可由前两个数相加得到。用计算机程序输出斐波那契數列的前 N 个数是一个非常...

2019-01-24 22:00:16 111

原创 数据提取之lxml

1. lxml的认识在前面学习了xpath的语法,那么在代码中我们如何使用xpath呢,对应的我们需要lxml安装方式:pip install lxml2. lxml的使用2.1 lxml模块的入门使用1.导入lxml 的 etree 库 (导入没有提示不代表不能用) `from lxml import etree`2.利用etree.HTML,将字符串转化为Element对象,E...

2019-01-23 20:17:42 395

原创 数据提取之Xpath

1. xpath和lxmllxml是一款高性能的 Python HTML/XML 解析器,我们可以利用XPath,来快速的定位特定元素以及获取节点信息2. 什么是xpathXPath (XML Path Language) 是一门在 HTML\XML 文档中查找信息的语言,可用来在 HTML\XML 文档中对元素和属性进行遍历。W3School官方文档:http://www.w3schoo...

2019-01-23 20:05:45 484

原创 数据提取之正则

1. 什么是正则表达式用事先定义好的一些特定字符、及这些特定字符的组合,组成一个规则字符串,这个规则字符串用来表达对字符串的一种过滤逻辑。2. 正则表达式的常见语法知识点正则中的字符正则中的预定义字符集正则中的数量词正则的语法很多,不能够全部复习,对于其他的语法,可以临时查阅资料,比如:表示或还能使用|练习: 下面的输出是什么?string_a = '<meta ht...

2019-01-23 11:46:43 387

原创 数据提取之json

1.前提由于把json数据转化为python内建数据类型很简单,所以爬虫中,如果我们能够找到返回json数据的URL,就会尽量使用这种URL,而很多地方也都会返回json2. 什么是jsonJSON(JavaScript Object Notation) 是一种轻量级的数据交换格式,它使得人们很容易的进行阅读和编写。同时也方便了机器进行解析和生成。适用于进行数据交互的场景,比如网站前台与后台...

2019-01-23 11:31:02 667

原创 数据提取的概念和数据的分类

1. 什么是数据提取简单的来说,数据提取就是从响应中获取我们想要的数据的过程2. 爬虫中数据的分类结构化数据:json,xml等- 处理方式:直接转化为python类型非结构化数据:HTML- 处理方式:正则表达式、xpath下面以今日头条的首页为例,介绍结构化数据和非结构化数据结构化数据例子:非结构化数据:XML数据:<bookstore>...

2019-01-23 11:00:56 5790

原创 chrome浏览器使用方法介绍

1. 新建隐身窗口1.1 为什么需要新建隐身窗口在打开隐身窗口的时候,第一次请求某个网站是没有携带cookie的,和代码请求一个网站一样,不携带cookie。这样就能够尽可能的理解代码请求某个网站的结果;除非数据是通过js加载出来的,不然爬虫请求到的数据和浏览器请求的数据大部分时候都是相同的2. chrome中network的更多功能2.1 Perserve log默认情况下,页面发...

2019-01-23 10:57:25 628

原创 requests模块的使用(四)

1. requests模块获取cookierequests.utils.dict_from_cookiejar:把cookiejar对象转化为字典import requestsurl = "http://www.baidu.com"response = requests.get(url)print(type(response.cookies))cookies = requests....

2019-01-23 10:51:57 152

原创 requests模块的使用(三)

1.使用requests处理cookie相关的请求1.1 回顾cookie和session的区别cookie数据存放在客户的浏览器上,session数据放在服务器上。cookie不是很安全,别人可以分析存放在本地的cookie并进行cookie欺骗。session会在一定时间内保存在服务器上。当访问增多,会比较占用你服务器的性能。单个cookie保存的数据不能超过4K,很多浏览器都限制...

2019-01-17 19:54:29 174

原创 requests模块的使用(二)

1.requests模块发送POST请求1.1 哪些地方我们会用到POST请求:登录注册( POST 比 GET 更安全)需要传输大文本内容的时候( POST 请求对数据长度没有要求)所以同样的,我们的爬虫也需要在这两个地方回去模拟浏览器发送post请求1.2 使用requests模块发送post请求用法:response = requests.post(“http://w...

2019-01-17 19:32:09 168

原创 requests模块的使用(一)

1. 为什么要重点学习requests模块,而不是urllibrequests的底层实现就是urllibrequests在python2 和python3中通用,方法完全一样requests简单易用Requests能够自动帮助我们解压(gzip压缩的等)网页内容2.requests的作用作用:发送网络请求,返回响应数据中文文档 : http://docs.python-reque...

2019-01-16 16:57:34 183

原创 HTTP和HTTPS

1. http和https的概念HTTP- 超文本传输协议 默认端口号:80- 默认端口号:80HTTPS- HTTP + SSL(安全套接字层) 默认端口号:443- 默认端口号:443HTTPS比HTTP更安全,但是性能更低2.浏览器发送HTTP请求的过程浏览器会主动请求js,css等内容,js会修改页面的内容,js也可以重新发送请求,最后浏览器渲染出来的内容在e...

2019-01-16 16:29:47 279

原创 爬虫的分类和爬虫的流程

1. 爬虫的分类根据被爬网站的数量的不同,我们把爬虫分为:通用爬虫 :通常指搜索引擎的爬虫聚焦爬虫 :针对特定网站的爬虫2.爬虫的流程请思考:如果自己要实现一个和百度新闻一样的网站需要怎么做?2.1 聚焦爬虫的工作流程如下:2.2 搜索引擎的工作流程如下:但是搜索引擎类似的通用爬虫的工作流程有些不同2.3 搜索引擎的局限性通用搜索引擎所返回的网页里90%的内容...

2019-01-16 15:27:40 879

原创 爬虫的概念

爬虫:模拟浏览器的行为,向服务器发送请求,获取响应中的数据。往白了说就是模拟浏览器的行为。掌握要点 : 如何更像的模拟浏览器的行为.总结 : 浏览器能拿到的数据,就一定可以爬到;浏览器拿不到的数据,就一定爬不到。...

2019-01-16 15:03:44 114

原创 使用单进程,单线程,非堵塞---完成多任务!

**使用单进程,单线程,非堵塞—完成多任务!**`代码如下:import socketimport timetcp_server = socket.socket(socket.AF_INET, socket.SOCK_STREAM)tcp_server.bind(("", 7890))tcp_server.listen(128)tcp_server.setblocking(...

2018-09-18 20:16:17 789

转载 编辑器Vim

vi简介vi是“Visual interface”的简称,它在Linux上的地位就仿佛Edit程序在DOS上一样。它可以执行输出、删除、查找、替换、块操作等众多文本操作,而且用户可以根据自己的需要对其进行定制。Vi不是一个排版程序,它不象Word或WPS那样可以对字体、格式、段落等其他属性进行编排,它只是一个文本编辑程序。 vi没有菜单,只有命令,且命令繁多。 Vi有三种基本工作模式:...

2018-09-13 10:00:57 105

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除