- 博客(19)
- 收藏
- 关注
原创 node.js使用
简单的说Node.js就是运行在服务端的JavaScript。Node.js是一个基于Chrome JavaScript运行时建立的一个平台。Node.js是一个事件驱动I/O服务端JavaScript环境,基于Google的V8引擎,V8引擎执行JavaScript的速度非常快,性能非常好。1.node.js,进入链接,选择合适的电脑型号安装,按照提示next,安装后在终端中键入no...
2018-08-29 22:52:28 264
原创 分布式爬虫
修改普通爬虫项目为分布式爬虫1.主爬虫文件myspider.py 做如下修改,其他不做修改:import scrapyfrom ..items import MyItem # 导入数据模型from scrapy_redis.spiders import RedisSpider #导入scrapy_redis模块# 1.修改scrapy.spider为RedisSpidercla...
2018-08-17 21:55:45 289
原创 scrapy_redis分布式爬虫
scrapy_redis更新下载:https://github.com/rmax/scrapy-redis进入页面后,复制源码链接然后使用Git,通过git clone命令clone到本地:1.修改settings.py# 使用scrapy_redis的去重类,不使用scrapy默认的去重类DUPEFILTER_CLASS = "scrapy_redis.dupefilter....
2018-08-15 22:40:13 317
原创 Redis基本命令
Redis是一个速度非常快的非关系型数据库,使用内存作为主存储,内存中的数据也可以被持久化到硬盘。Redis以键值对形式(key-value)存储数据,其中值可以分为5种类型:字符串(string) 列表(list) 哈希(hash) 集合(set) 有序集合(zset) keyRedis 基本命令字符串Redis的字符串(string)可以存储字符串、整数、浮点数。Str...
2018-08-15 22:02:31 139
原创 redis数据库简单介绍
Redis 是完全开源免费的,遵守BSD协议,是一个高性能的key-value数据库。Redis 与其他 key - value 缓存产品有以下三个特点:Redis支持数据的持久化,可以将内存中的数据保存在磁盘中,重启的时候可以再次加载进行使用 Redis不仅仅支持简单的key-value类型的数据,同时还提供list,set,zset,hash等数据结构的存储 Redis支持数据的备...
2018-08-14 20:55:08 167
原创 ItemLoader分离数据
一般分离数据可以在主爬虫程序中进行,也可以在数据模型items中进行.使用itemloader有如下优势:1.默认使用xpath()/css()这种数据提取方式2.将数据的提取和数据的过滤等过程放在一个函数中,将数据提取和分离分成两部分使代码美观,整洁,便于阅读3.单独定义处理数据的函数,同意数据可使用多函数处理,便于代码复用items数据模型中导入模块及使用import...
2018-08-14 20:31:38 341
原创 邮件传输
电子邮件传输的基本流程:假设我的电子邮箱地址是Jack@163.com,对方的;邮箱地址为Rose@sina.com我使用outlook或者foxmail之类的软件发邮件时,这些软件被称为MUA(Mail User Agent)-邮件用户代理邮件发送到MTA(Mail Transfer Agent)-邮件传输代理,这个由使用的email服务提供商决定,我使用的是网易邮箱,所以邮...
2018-08-14 19:59:14 6005
原创 Scrapy中间件
中间件多用于设置请求头信息,请求数据等# -*- coding: utf-8 -*-# Define here the models for your spider middleware## See documentation in:# https://doc.scrapy.org/en/latest/topics/spider-middleware.htmlfrom scra...
2018-08-14 19:32:35 617
原创 phantomjs使用
from selenium import webdriver# 使用webkit无界面浏览器# 如果路径为exe启动程序的路径 那么该路径需要加一个rdriver = webdriver.PhantomJS(executable_path=r'D:/phantomjs-2.1.1-windows/bin/phantomjs.exe')# 获取指定网页的数据driver.get('ht...
2018-08-14 17:58:06 547
原创 Scrapy帮助
爬虫文件目录spider下,创建任意名称的.py文件写入如下内容,右键运行,可在pycharm中模拟命令行终端form scrapy import cmdline# blabla为爬虫文件的`name`值cmdline.execute("scrapy crawl blabla".split())爬虫文件中的name,allowed_domains和start_urls:na...
2018-08-14 17:25:34 322 1
原创 phantomjs安装
身为一个Python小白,我对phantomjs并不是很了解,今天安装了一遍,于是写这篇博客记录下流程,首先是对phantomjs的介绍:phantomjs介绍 (1)一个基于webkit内核的无头浏览器,即没有UI界面,即它就是一个浏览器,只是其内的点击、翻页等人为相关操作需要程序设计实现。 (2)提供javascript API接口,即通过编写js程序可以直...
2018-08-09 22:48:21 590
原创 MySQL安装
今天刚刚装了一遍MySQL,因此把安装MySQL的过程写一下。根据个人需要可以去官网下载合适的版本,安装方式不尽相同。1.打开安装运行程序,自动跳转至如下如,勾选同意协议点击下一步 2.默认选项,然后下一步3.连续在弹出界面默认选择确定或者next 4.待进度完成后点击下一步依旧next5.加载完成后,默认下一步6.然后fi...
2018-08-08 22:36:53 287
原创 Scrapy
Scrapy介绍 Scrapy一个开源和协作的框架,其最初是为了页面抓取(更确切来说,网络抓取)所设计的,使用它可以快速、简单、可扩展的方式从网站中提取所需的数据。但目前Scrapy的用途十分广泛,可用于如挖掘、监测和自动化测试等领域,也可以应用在API所返回的数据(例如Amazon Associates Web Services)或者通用的网络爬虫。 Scrap...
2018-08-01 23:10:29 7427
原创 seleinum安装
今天刚安装了一遍selenium,为了加强记忆,于是决定写一篇关于selenium安装的博客。首先我先简单的介绍下selenium:selenium是一个自动化测试工具在python中的应用为:1.selenium可以完全模拟人对浏览器操作,对动态数据进行获取。动态数据由代码生成,在页面初始化的过程当中是没有的,也无法获取。但是可以通过selenium来进行获取。2.有些数据是...
2018-08-01 21:25:24 490
原创 Python——sqlite3常用语句
日拱一卒无有尽,功不唐捐终入海。 常见的存储数据的三种方式1.内存存储:变量 优点:读写速度快 缺点:程序关闭,内存释放2.文件存储:文件读写操作 优点:数据永久 缺点:读写操作麻烦数据库即为数据存储仓库3.数据库存储: 优点:数据永久 缺点:学习难度大 数据库按性质划分有两种:1.关系型数据库:数...
2018-07-14 10:11:19 3140
原创 Python——方法总结
日拱一卒无有尽,功不唐捐终入海。class Pelple(object): #实例化方法 在创建的时候需要一个self参数 #表示调用该方法的对象是谁 def instanceFun(self): print('我是一个实例方法')...
2018-07-13 22:55:39 162
原创 Python小知识点
日拱一卒无有尽,功不唐捐终入海。 1.默认参数 必须放在参数列表的队尾 普通形参必须放在默认参数的前面def test( a,b= 3): passtest()test()2. 函数参数可以为任意类型testB(testA())3.*args返回的是一个元组4.map函数里面需要两个值 值1:必须是函数 值2:序列/...
2018-07-12 23:09:38 156
原创 Python小知识点
1.时间戳 从1970年到现在的秒数time2 = time.time()print(time2)date9 = datetime.datetime.now()print(date9.timestamp()) 上面是两种用到时间戳的代码。stamp 邮戳。timestamp 时间戳,时间线。2.线程休眠 爬虫:获取对方数据太快,有可能被认为是爬...
2018-07-11 23:09:14 165
原创 Python错误信息
在敲代码的过程中总是遇到各种各样的错误。为了遇到认识的错误知道怎么处理,因此总结错误类型如下:1. IndexError : string index out of range 索引错误:字符串索引超出了范围 解决办法:查看字符串的长度,索引要小于长度content ='hello world'print(content[11]) ...
2018-07-11 09:09:24 1169
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人