dephrzr2623-CSDN博客

转载 00_SQL简介

1、什么是SQL？　　SQL，全称为Structured Query Language（结构化查询语言)。要讲SQL就绕不开database(数据库), 平时所说的数据库，一般就是指的Relational database(关系型数据库)。　　数据库是用来存储大量数据的一种软件，那么SQL呢是用来操作数据里的数据，具体来说SQL可以做数据查询，数据更新，写入数据等等。　　如...

2019-07-08 15:08:00 179

转载 pycharm的一些快捷键

编辑类：Ctrl + Space 基本的代码完成（类、方法、属性）Ctrl + Alt + Space 类名完成Ctrl + Shift + Enter 语句完成Ctrl + P 参数信息（在方法中调用参数）Ctrl + Q 快速查看文档Shift + F1 外部文档Ctrl + 鼠标简介Ctrl + F1 显示错误描述或警告信息Alt + Insert 自动生成代码Ctrl + ...

2019-01-10 14:21:00 142

转载 python资源全汇总—中文版

原始来源：https://github.com/vinta/awesome-python真棒Python管理面板算法和设计模式反垃圾邮件资产管理音频验证构建工具缓存ChatOps工具CMS代码分析和Linter命令行工具兼容性计算机视觉并发和并行性组态密码学数据分析数据验证数据可视化数据库驱动程序数据库日期和时间调试工具深度学习D...

2019-01-08 11:59:00 508

转载 14_XPath

XPath，全称XML Path Language，即XML路径语言，它是一门在XML文档中查找信息的语言。它最初是用来搜寻XML文档的，但是它同样适用于HTML文档的搜索。所以在做爬虫时，我们完全可以使用XPath来做相应的信息抽取。本节中，我们就来介绍XPath的基本用法。1. XPath概览XPath的选择功能十分强大，它提供了非常简洁明了的路径选择表达式。另外，它还提...

2019-01-08 11:28:00 128

转载 13_多线程

前言在上一节中介绍了thread多线程库。python中的多线程其实并不是真正的多线程，并不能做到充分利用多核CPU资源。如果想要充分利用，在python中大部分情况需要使用多进程，那么这个包就叫做 multiprocessing。借助它，可以轻松完成从单进程到并发执行的转换。multiprocessing支持子进程、通信和共享数据、执行不同形式的同步，提供了Process、...

2019-01-07 11:27:00 95

转载 12_多线程

前言我们之前写的爬虫都是单个线程的？这怎么够？一旦一个地方卡到不动了，那不就永远等待下去了？为此我们可以使用多线程或者多进程来处理。首先声明一点！多线程和多进程是不一样的！一个是 thread 库，一个是 multiprocessing 库。而多线程 thread 在 Python 里面被称作鸡肋的存在！而没错！本节介绍的是就是这个库 thread。不建议你用这个，不过还...

2019-01-07 11:20:00 73

转载浅谈CSRF攻击方式

CSRF是什么？CSRF（Cross-site request forgery），中文名称：跨站请求伪造，也被称为：one click attack/session riding，缩写为：CSRF/XSRF。CSRF可以做什么？你这可以这么理解CSRF攻击：攻击者盗用了你的身份，以你的名义发送恶意请求。CSRF能够做的事情包括：以你名义发送邮件，发消息，盗取你的账号，甚至于购...

2019-01-05 13:36:00 87

转载 2018年终总结

2018过去几天了，昨天看到群里的大佬的年终总结，很是感慨。于是觉得有必要总结一下自己的2018，毕竟现在还不算晚。回顾2018，心中五味杂陈。这期间发生了许多我从来没有想过的事，有开心的，当然也有不开心。总结一下就是，格局变化，迈入新阶段，重新开始，with那个她。这一年，真是充满了变数，要不是现在敲键盘声响，我真的以为自己在做梦。首先，就职业规划而言，我选择了转...

2019-01-04 15:44:00 83

转载 11_正则表达式

本节中，我们看一下正则表达式的相关用法。正则表达式是处理字符串的强大工具，它有自己特定的语法结构，有了它，实现字符串的检索、替换、匹配验证都不在话下。当然，对于爬虫来说，有了它，从HTML里提取想要的信息就非常方便了。1. 实例引入说了这么多，可能我们对它到底是个什么还是比较模糊，下面就用几个实例来看一下正则表达式的用法。打开开源中国提供的正则表达式测试工具http://...

2019-01-03 17:27:00 125

转载 10_requests（二）之高级用法

在前一节中，我们了解了requests的基本用法，如基本的GET、POST请求以及Response对象。本节中，我们再来了解下requests的一些高级用法，如文件上传、cookie设置、代理设置等。1. 文件上传我们知道requests可以模拟提交一些数据。假如有的网站需要上传文件，我们也可以用它来实现，这非常简单，示例如下：1234...

2019-01-03 15:14:00 114

转载 09_requests（一）之基本用法

1. 实例引入urllib库中的urlopen()方法实际上是以GET方式请求网页，而requests中相应的方法就是get()方法，是不是感觉表达更明确一些？下面通过实例来看一下：12345678import requestsr = requests.get('https://www.baid...

2019-01-03 14:27:00 210

转载 08_urllib（四）Robots协议

利用urllib的robotparser模块，我们可以实现网站Robots协议的分析。本节中，我们来简单了解一下该模块的用法。1. Robots协议Robots协议也称作爬虫协议、机器人协议，它的全名叫作网络爬虫排除标准（Robots Exclusion Protocol），用来告诉爬虫和搜索引擎哪些页面可以抓取，哪些不可以抓取。它通常是一个叫作robots.txt的文本文件，一...

2019-01-03 14:04:00 71

转载 07_urllib（3）之解析链接

前面说过，urllib库里还提供了parse这个模块，它定义了处理URL的标准接口，例如实现URL各部分的抽取、合并以及链接转换。它支持如下协议的URL处理：file、ftp、gopher、hdl、http、https、imap、mailto、 mms、news、nntp、prospero、rsync、rtsp、rtspu、sftp、 sip、sips、snews、svn、svn+ssh...

2019-01-03 13:51:00 130

转载 06_urllib（2）之处理异常

前一节我们了解了请求的发送过程，但是在网络不好的情况下，如果出现了异常，该怎么办呢？这时如果不处理这些异常，程序很可能因报错而终止运行，所以异常处理还是十分有必要的。urllib的error模块定义了由request模块产生的异常。如果出现了问题，request模块便会抛出error模块中定义的异常。1.URLErrorURLError类来自urllib库的error模块，...

2019-01-03 13:37:00 80

转载 05_urllib（1）之发送请求

前言：在Python 2中，有urllib和urllib2两个库来实现请求的发送。而在Python 3中，已经不存在urllib2这个库了，统一为urllib，其官方文档链接为：https://docs.python.org/3/library/urllib.html。首先，了解一下urllib库，它是Python内置的HTTP请求库，也就是说不需要额外安装即可使用。它...

2019-01-02 23:08:00 91

转载 04_代理

　　我们在做爬虫的过程中经常会遇到这样的情况，最初爬虫正常运行，正常抓取数据，一切看起来都是那么美好，然而一杯茶的功夫可能就会出现错误，比如403 Forbidden，这时候打开网页一看，可能会看到“您的IP访问频率太高”这样的提示。出现这种现象的原因是网站采取了一些反爬虫措施。比如，服务器会检测某个IP在单位时间内的请求次数，如果超过了这个阈值，就会直接拒绝服务，返回一些错误信息，这种...

2019-01-01 14:22:00 100

转载 03_会话和Cookies

在浏览网站的过程中，我们经常会遇到需要登录的情况，有些页面只有登录之后才可以访问，而且登录之后可以连续访问很多次网站，但是有时候过一段时间就需要重新登录。还有一些网站，在打开浏览器时就自动登录了，而且很长时间都不会失效，这种情况又是为什么？其实这里面涉及会话和Cookies的相关知识，本节就来揭开它们的神秘面纱。1.静态网页和动态网页在开始之前，我们需要先了解一下静态网页和动态...

2018-12-30 13:06:00 87

转载 04_小说爬虫（上）

前言：　　本次项目分为两部分。第一部分编写的爬虫主要功能为爬取小说相关信息，例如小说标题、作者、简介以及小说链接等，并保存至mongoDB。随后对其增加了交互式界面，实现了小说种类的分类以及页面数限制，最后可获得感兴趣小说的完整小说内容并且自动创建文件夹保存至本地。第二部分编写的爬虫主要是实现大规模的小说爬取，将小说网站上的所有小说爬取下来，自动创建好文件下保存至本地。本...

2018-12-26 22:11:00 645

转载 03_使用scrapy框架爬取豆瓣电影TOP250

前言：　　本次项目是使用scrapy框架，爬取豆瓣电影TOP250的相关信息。其中涉及到代理IP，随机UA代理，最后将得到的数据保存到mongoDB中。本次爬取的内容实则不难。主要是熟悉scrapy相关命令以及理解框架各部分的作用。1、本次目标　　爬取豆瓣电影TOP250的信息，将得到的数据保存到mongoDB中。2、准备工作　　需要安装好scrapy以及mong...

2018-12-18 23:23:00 862

转载 02_爬取灌篮高手全国大赛漫画

前言：　　写本次项目主要是忙里偷闲想看看漫画，决定写个爬虫练练手。爬取的过程中还是遇到了一些问题。所以这一次项目主要同样是用Selenium来模拟浏览器操作来获取全部图片，用xpath来解析出图片，最后将图片保存到本地。1、本次目标　　利用Selenium爬取漫画图片，将图片保存到本地。2. 准备工作　　本次项目需要用到的库和浏览器和上一节相同，这里就不在赘述。...

2018-12-04 19:54:00 332

转载 02_网页基础

用浏览器访问网站时，页面各不相同，你有没有想过它为何会呈现这个样子呢？本节中，我们就来了解一下网页的基本组成、结构和节点等内容。1. 网页的组成网页可以分为三大部分——HTML、CSS和JavaScript。如果把网页比作一个人的话，HTML相当于骨架，JavaScript相当于肌肉，CSS相当于皮肤，三者结合起来才能形成一个完善的网页。下面我们分别来介绍一下这三部分的功能。...

2018-11-27 22:11:00 196

转载 01_HTTP基本原理

1. URI和URL这里我们先了解一下URI和URL，URI的全称为Uniform Resource Identifier，即统一资源标志符，URL的全称为Universal Resource Locator，即统一资源定位符。举例来说，https://github.com/favicon.ico是GitHub的网站图标链接，它是一个URL，也是一个URI。即有这样的一个图标资源...

2018-11-26 16:47:00 60

转载 01_爬取京东商品

前言：　　　　本次爬取的目标采用的Ajax方式加载页面信息，并且这些Ajax的接口参数比较复杂，想要构造Ajax参数模拟请求比较困难。对于这种页面，最方便快捷的抓取方法就是通过Selenium。使用Selenium来模拟浏览器操作，来抓取京东的商品信息，并将最后的结果保存至MongoDB中。1. 本次目标　　本节中，我们要利用Selenium抓取京东商品并用Beau...

2018-11-19 21:30:00 875

转载前端学习06

css选择器1、什么是选择器每一条css样式声明（定义）由两部分组成，形式如下：选择器{ 样式;}在{}之前的部分就是“选择器”，“选择器”指明了{}中的“样式”的作用对象，也就是“样式”作用于网页中的哪些元素。2、标签选择器标签选择器其实就是html代码中的标签。如右侧代码编辑器中的<html>、<body>...

2018-11-18 16:14:00 49

转载前端学习05

认识CSS1、认识CSS样式CSS全称为“层叠样式表 (Cascading Style Sheets)”，它主要是用于定义HTML内容在浏览器内的显示样式，如文字大小、颜色、字体加粗等。如下列代码：p{ font-size:12px; color:red; font-weight:bold;}使用CSS样式的一个好处是通过定义某个样...

2018-11-16 17:25:00 49

转载前端学习04

认识标签（三）1、使用表单标签，与用户交互网站怎样与用户进行交互？答案是使用HTML表单(form)。表单是可以把浏览者输入的数据传送到服务器端，这样服务器端程序就可以处理表单传过来的数据。语法：<form method="传送方式" action="服务器文件">讲解：1.<form> ：<form>标签是成对...

2018-11-15 22:14:00 55

转载前端学习03

认识标签（二）1、使用ul，添加新闻信息列表在浏览网页时，你会发现网页上有很多信息的列表，如新闻列表、图片列表，如下图所示。新闻列表图片列表这些列表就可以使用ul-li标签来完成。ul-li是没有前后顺序的信息列表。语法：<ul> <li>信息</li> <li>信息</li...

2018-11-14 16:15:00 116

转载前端学习02

认识标签（一）1、<body>标签，网页上显示的内容放在这里还记得body标签吗，在上一章节我们简单介绍过：在网页上要展示出来的页面内容一定要放在body标签中。如下图是一个新闻文章的网页。在浏览器中的显示效果：2、<p>标签，添加段落如果想在网页上显示文章，这时就需要<p>标签了，把文章的...

2018-11-13 16:09:00 112

转载前端学习01

1、HTML、CSS、JavaScriptHTML是网页内容的载体。内容就是网页制作者放在页面上想要让用户浏览的信息，可以包含文字、图片、视频等。CSS样式是表现。就像网页的外衣。比如，标题字体、颜色变化，或为标题加入背景图片、边框等。所有这些用来改变内容外观的东西称之为表现。JavaScript是用来实现网页上的特效效果。如：鼠标滑过弹出下拉菜单。或鼠标滑过表格的背景...

2018-11-13 15:39:00 54

转载 00_抓取猫眼电影排行TOP100

前言：　　学习python3爬虫有一段时间了，熟悉了爬虫的一些基本原理和基本库的使用，本次就准备利用requests库和正则表达式来抓取猫眼电影排行TOP100的相关内容。1、本次目标：　　爬取猫眼电影排行TOP100的电影相关信息，包括：名称、图片、演员、时间、评分，排名。提取站点的URL为http://maoyan.com/board/4，提取的结果以文本形式保...

2018-11-04 22:02:00 628

转载 00_初识爬虫

我们可以把互联网比作一张大网，而爬虫（即网络爬虫）便是在网上爬行的蜘蛛。把网的节点比作一个个网页，爬虫爬到这就相当于访问了该页面，获取了其信息。可以把节点间的连线比作网页与网页之间的链接关系，这样蜘蛛通过一个节点后，可以顺着节点连线继续爬行到达下一个节点，即通过一个网页继续获取后续的网页，这样整个网的节点便可以被蜘蛛全部爬行到，网站的数据就可以被抓取下来了。1. 爬虫概述简单来说...

2018-10-30 21:17:00 68

转载 00_面向对象

pass转载于:https://www.cnblogs.com/knowing/p/9879620.html

2018-10-30 21:15:00 112

转载 08_函数进阶

01. 函数参数和返回值函数根据有没有参数以及有没有返回值，可以相互组合，一共有 4 种组合形式无参数，无返回值无参数，有返回值有参数，无返回值有参数，有返回值定义函数时，是否接收参数，或者是否返回结果，是根据实际的功能需求来决定的！如果函数内部处理的数据不确定，就可以将外界的数据以参数传递到函数内部如果希望一个函数执行完成后，向外界汇报执行...

2018-10-25 03:06:00 62

转载 07_函数

01. 认识函数所谓函数，就是把具有独立功能的代码块组织为一个小模块，在需要的时候调用函数的使用包含两个步骤：定义函数 —— 封装独立的功能调用函数 —— 享受封装的成果函数的作用，在开发程序时，使用函数可以提高编写的效率以及代码的重用02. 函数基本使用2.1 函数的定义定义函数的格式如下：def 函数名(): 函数封装的代码 ...

2018-10-25 02:43:00 55

转载 06_循环语句

01. 程序的三大流程在程序开发中，一共有三种流程方式：顺序 —— 从上向下，顺序执行代码分支 —— 根据条件判断，决定执行代码的分支循环 —— 让特定代码重复执行02. while 循环基本使用循环的作用就是让指定的代码重复的执行while 循环最常用的应用场景就是让执行的代码按照指定的次数重复执行2.1 while 语句基本语法初...

2018-10-25 02:33:00 103

转载 05_if语句

01. if 语句体验1.1 if 判断语句基本语法在 Python 中，if 语句就是用来进行判断的，格式如下：if 要判断的条件: 条件成立时，要做的事情 …… 注意：代码的缩进为一个 tab 键，或者 4 个空格在 Python 开发中，Tab 和空格不要混用！我们可以把整个 if 语句看成一个完整的代码块1.2 判断...

2018-10-25 02:21:00 184

转载 04_变量进阶

01. 变量的引用变量和数据都是保存在内存中的在 Python 中函数的参数传递以及返回值都是靠引用传递的1.1 引用的概念在 Python 中变量和数据是分开存储的数据保存在内存中的一个位置变量中保存着数据在内存中的地址变量中记录数据的地址，就叫做引用使用 id() 函数可以查看变量中保存数据所在的内存地址注...

2018-10-25 02:03:00 165

转载 03_高级变量

01. 列表1.1 列表的定义List（列表）是 Python 中使用最频繁的数据类型，在其他语言中通常叫做数组专门用于存储一串信息列表用 [] 定义，数据之间使用 , 分隔列表的索引从 0 开始索引就是数据在列表中的位置编号，索引又可以被称为下标注意：从列表中取值时，如果超出索引范围，程序会报错name_list = ["zha...

2018-10-25 01:54:00 216

转载 02_变量

0.1 变量的命名1.1 标识符标示符就是程序员定义的变量名、函数名名字需要有见名知义的效果，见下图：标示符可以由字母、下划线和数字组成不能以数字开头不能与关键字重名1.2 关键字关键字就是在 Python 内部已经使用的标识符关键字具有特殊的功能和含义开发者不允许定义和关键字相同的名字的标示符通过以下命令可以查看 Python ...

2018-10-24 21:46:00 68

转载 01_运算符

01. 算数运算符是完成基本的算术运算使用的符号，用来处理四则运算| 运算符| 描述 | 实例 || + | 加 | 10 + 20 = 30| - | 减 | 10 - 20 = -10| * | 乘 | 10 * 20 = 200| / | 除 | 10 / 20 = 0.5| // | 取整除 | 返回除法的整数部分（商） 9 // 2 输出结果 4 || % ...

2018-10-24 21:30:00 90

空空如也

空空如也