- 博客(19)
- 收藏
- 关注
原创 Nodejs基础篇
简单的说 Node.js 就是运行在服务端的 JavaScript。Node.js 是一个基于Chrome JavaScript 运行时建立的一个平台。Node.js是一个事件驱动I/O服务端JavaScript环境,基于Google的V8引擎,V8引擎执行Javascript的速度非常快,性能非常好。我们有必要对其进行学习并掌握它,下面是几点使用过程中的新的。 一.下载安装 ...
2018-08-30 08:50:29 348
原创 Python如何实现分布式爬虫
经过前面的介绍,相信大家已经对Python爬虫有了初步的了解,对一些常见的网站爬虫,应该也能够轻松实现。不难发现,我们在使用单一爬虫进行爬取数据时有明显缺陷——速度慢,当我们需要进行大规模数据采集时,这种速度难以满足我们的需求。此时,就需要分布式爬虫的帮助了。由于对分布式系统不做过多解释,有兴趣的朋友可以自行查阅了解,我们将重点放在分布式爬虫上,下面是几点简单介绍:Ⅰ. 简介 ...
2018-08-13 23:09:36 23448 7
原创 Python如何发邮件
一. 邮箱设置 要想实现代码控制邮箱发邮件,我们需要先开启邮箱的POP3/SMTP服务,以网易邮箱为例,需要设置授权码,并开启这个服务,才能实现发邮件。二. 代码实现 首先导入工具包:这里要注意的是,文件名不能写email.py,因为会与系统文件冲突。# smtp simple mail transfer protocol 简单邮件传输协议# lib lib...
2018-08-13 08:54:02 581
原创 PhantomJS的简介与安装
前面我们尝试了用爬虫框架scrapy来更加快速、高效的爬取网站的信息,不难发现,在爬去静态网页时,scrapy可以轻松胜任,但是遇到动态网页时,我们别会束手无策。今天我给大家推荐一个可以配合scrapy使用的、用来爬取动态网页信息的工具——PhantomJS。 这个工具包含在selenium中,前文我们使用过selenium爬取动态网页,它内部的PhantomJS工具则可以搭配s...
2018-08-09 23:11:21 393
原创 Python爬虫时获取标签内全部文本内容的四种方式
前文提到了Python爬虫框架之一的——Scrapy框架安装和相关命令的简单使用,熟悉了起码的实用流程。今天我们进行一些细节上的总结。如题,在我们要获取目标文本所在的标签时,通常有几种方法,下面我们挨个举例说明各种用法的使用: 以百度贴吧小说吧中的一篇小说为例,我们开始进行爬虫举例,该小说链接为:https://tieba.baidu.com/p/5702862812?pn=1...
2018-08-06 01:54:16 91933 3
原创 Python爬虫框架Scrapy的安装和入门使用
Scrapy是用Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架,用途非常广泛。用户只需要手动配置开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片,非常之方便。Scrapy 使用了 Twisted异步网络框架来处理网络通讯,可以加快我们的下载速度,不用自己去实现异步框架,并且包含了各种中间件接口,可以灵活的完成各种需求。在开发过程中使用它可以大大加快开...
2018-08-01 23:14:22 778
原创 Selenuim安装及基本操作总结
selenuim,英语直译是“硒“的意思,在Python中它是一个自动测试工具。首先,我们先了解一下什么是测试,这对我们了解selenium有帮助。首先,测试有手动测试和自动测试,黑盒测试和百合测试之分。手动测试就是测试人员手动进行测试,自动测试是利用类似selenium的工具进行自动测试,黑盒测试是测试人员看不到措施对象的源码,直接用成品进行测试,白盒测试是测试员能看到源码,根据源码设计相关...
2018-07-30 23:10:58 1054
原创 正则表达式、xpath和Beautifulsoup的分析和总结
1.正则表达式是进行内容匹配,将符合要求的内容全部获取;xpath()能将字符串转化为标签,它会检测字符串内容是否为标签,但是不能检测出内容是否为真的标签;Beautifulsoup是Python的一个第三方库,它的作用和 xpath 作用一样,都是用来解析html数据的相比之下,xpath的速度会快一点,因为xpath底层是用c来实现的2.三者语法不同,正则表达式使用元字符,将所有获得内...
2018-07-29 17:02:05 4885 2
原创 Python常见的网页请求方式总结
在进行Python爬虫时,我们首先要向网页请求数据,拿到数据后再进行相关操作。今天我们便以代码形式,对常见的网页请求方式进行分析总结。1. urlopen() 首先我们先用urlopen完成一个简单的数据请求,代码如下:from urllib.request import Request,urlopenurl = 'https://www.baidu.com/'requ...
2018-07-29 16:38:07 8530
原创 Python入门编程中常见的八种报错
对于初学者而言,由于语法的不熟练等种种原因,会出现各种错误导致程序报错,本文选取八种常见的错误进行举例说明,希望可以帮助初学者进行错误纠正。1. SyntaxError: 'return' outside functionfor x in range(10): x += 1 print(x) if x == 5: return else: ...
2018-07-11 09:25:10 1309
原创 Python基础知识学习(八)
1. 对象1.编程语言发展历程:机器语言、汇编语言、高级语言:1.面向过程的语言:C 2.面向对象的语言:Java,OC,C++,C#,Python类和对象class 类 People 类名 ()里面为集成的对象,object相当于祖类对象经常使用的两部分:以人来举例1.属性:名字 性别 身高 体重2.方法:吃 睡 哭 编码class People(object): ...
2018-07-05 21:29:04 410
原创 Python基础知识学习(七)
1. 异常处理# 程序报错list = [1, 2, 3, 4, 5, 6, 7, 8, 9]# print(list[14])# IndexError: list index out of range# 如果dic有name属性 则修改这个属性的值# 如果没有name属性 则添加name属性dic = {}dic['name'] = '张三'# print(dic['age'...
2018-07-04 21:24:38 353 1
原创 Python基础知识学习(六)
1. OS操作(内容补充)import os# 相对路径用的比较多,因为1.简单,2.# getcwd获取当前文件的绝对路径result = os.getcwd()print(result)# absolute 绝对的# 在计算机当中,获取当前文件路径用 “.” , 获取父文件夹路径 用“..”result = os.path.abspath('.')print(result)...
2018-07-03 19:52:16 560
原创 Python基础知识学习(五)
1. 时间操作 实践操作是一个很常用也很重要的技能,它是很多技能实现的基础,比如定时群发邮件、日历等。当我们想要进行实践操作时,需要先导入相应的工具包——time,也就是import time。首先我们要知道,很多编程语言起源于UNIX系统,而UNIX系统认为1970年1月1日0点是时间纪元,所以为人们常说的UNIX时间戳是以1970年1月1日0点为计时起点时间的。以下将举几个时间相关...
2018-07-02 21:17:31 216
原创 Python基础知识学习(四)
1.列表操作(1)遍历列表list1 = [('今天', '天气很好'), ('123', '456'), ('abc', 'xyz')]for x in list1: print(x)输出结果: ('今天', '天气很好') ('123', '456') ('abc', 'xyz')接下来,我们进一步遍历注意:这种方法只能适用...
2018-06-29 21:20:50 625
原创 Python基础知识学习(三)
1. 循环 昨天我们写过简单的for循环,它是循环的典型之一,今天我们要学习循环中的另一个典型,它就是while循环。以下是个while循环的示例:index = 1while index < 10: index += 1 if index == 4: # continue # break pass print...
2018-06-28 22:52:04 343
原创 Python基础知识学习(二)
1. if判断表达式 昨天简单的了解了if条件判断表达式的使用,然而,在解决复杂的判断问题时,很容易出现条件表达式使用错误的情况,因此有必要花点时间来巩固一下。举个例子,当出现如下代码时:price = 150000if price < 400000: print('普通车')if price < 1200000: print('豪华车')if pric...
2018-06-27 21:52:57 501
原创 Python基础知识学习(一)
1. 变量1.1 概念简介 编程就是对内存中数据的访问和修改。程序所用到的数据都会保存在内存中,程序员需要一种机制来访问或修改内存中的数据,而这种机制就是变量,每一个变量都代表了一小块内存,而变量是有名字的,程序对变量赋值,其实就是把数据装入该变量所代表的内存区的过程,同样道理,程序读取变量的值,实际上就是从该变量所代表的内存区取值的过程。形象的理解:变量相当于有名字的容器,该容器用于装载...
2018-06-26 21:43:21 760
原创 Anaconda安装教程
1.Anaconda简介 Anaconda指的是一个开源的Python发行版本,它集成了conda、Python等180多个科学包及其依赖项。因为包含了大量的科学包,Anaconda 的下载文件比较大(约 515 MB),如果只需要某些包,或者需要节省带宽或存储空间,也可以使用Miniconda这个较小的发行版(仅包含conda和 Python)。它具有开源、安装简单、免费的社区支持等特点...
2018-06-25 20:34:11 300
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人