- 博客(8)
- 收藏
- 关注
原创 Python——分布式爬虫和redis
一、分布式爬虫 1.分布式爬虫:(1)默认情况下,scrapy爬虫是单机爬虫,只能在一台电脑上运行;爬虫调度器中的队列去重、set集合都是 在本机上创建,其他的电脑无法访问另外一台电脑上的内存内容。 (2)分布式爬虫用一个共同的爬虫程序,同时部署到...
2018-08-29 21:53:09 1514
原创 node.js基础介绍
Node.js简介Node.js就是运行在服务端的JavaScript,Node.js是基于Chrome JavaScript运行时建立的一个平台。Node.js是一个时间驱动I/O服务端JavaScript环境,基于Google的V8引擎,V8引擎执行JavaScript的速度的速度非常快,性能非常好。Node.js安装1.windows安装包(.msi)32位安装包下载地址: ...
2018-08-29 21:52:06 189
原创 Python——SMTP发送邮件
SMTP是发送邮件的协议,Python内置对SMTP的支持,可以发送纯文本邮件、HTML邮件以及附带的邮件。Python对SMTP支持有smtplib和email两个模块,email负责构造邮件,smtplib负责发送邮件。1.首先,可以构造一个最简单的纯文本邮件,构造MIMEText对象时,第一个参数就是邮件正文,传入'plain'表示纯文本,最终的MIME就是'text/plain',最后...
2018-08-11 10:29:40 367
原创 Python——Phantomjs下载及环境配置
有时,我们需要浏览器处理网页,但并不需要浏览,比如生成网页的截图、抓去网页数据等操作。Phantomjs的功能,就是提供一个浏览器环境的命令接口,你可以把它看做一个“虚拟浏览器”,除了不能浏览,其他与正常浏览器一样。它的内核是WebKit引擎,不提供图形界面,只能在命令行下使用,我们可以用它完成一些特殊的用途。1.下载phantomjs的地址是(http://phantomjs.org/dow...
2018-08-09 20:08:10 2791
原创 Python——mysql安装
一、mysql安装1.先下载mysql文件,下载地址为:(http://dev.mysql.com/downloads/);mysql下载后的文件名为:mysql-installer-community-5.6.41.0.msi,双击后,弹出如下窗口如图所示: 2.安装开始界面 3.选择下一步,弹出如下窗口 4.选择MySql ForExcel1.3.7,点击下一步。...
2018-08-09 19:45:02 1003
原创 Python——获取标签内部所有文本的方式
获取标签内部全部文本的几种方式:(1)获取最外面的标签,遍历内部的所有子标签并获取标签文本; (2)用正则去掉所有标签; (3)/text()获取标签的...
2018-08-06 21:31:36 8753
原创 Python——进程与线程以及yield与return的区别
一、进程与线程 1. 一个程序至少有一个进程,一个进程至少有一个线程 2. 线程的划分尺度小于进程,使得多线程程序的并发性高 3. 进程在执行过程中拥有独立的内存单元,而多个线程共享内存,从而极大地提高了程序的运行效率 4. 每个独立的线程有一个程序运行的入口、顺序执行序列和程序的出口。但是线程不能够独立执行,必须依存在应用程序中,由应...
2018-08-01 22:44:34 961
原创 Python——scrapy框架安装和scrapy爬虫命令行工具
一、Scrapy框架安装 Scrapy的简介 Scrapy 是用纯python实现的为了爬取网络数据的,提取结构性数据而编写的应用型框架;Scrapy 使用了twisted异步网络框架来处理网络通信可以加快下载速度,不用自己去实现异步框架;并且包含了各种中间件接口 可以灵活地完成各种需求。 安装scrapy框架时,首先在终端下输入pip...
2018-08-01 22:17:56 9564
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人