HukDog-CSDN博客

原创 node.js使用

简单的说Node.js就是运行在服务端的JavaScript。Node.js是一个基于Chrome JavaScript运行时建立的一个平台。Node.js是一个事件驱动I/O服务端JavaScript环境，基于Google的V8引擎，V8引擎执行JavaScript的速度非常快，性能非常好。1.node.js，进入链接，选择合适的电脑型号安装，按照提示next,安装后在终端中键入no...

2018-08-29 22:52:28 264

原创分布式爬虫

修改普通爬虫项目为分布式爬虫1.主爬虫文件myspider.py 做如下修改，其他不做修改：import scrapyfrom ..items import MyItem # 导入数据模型from scrapy_redis.spiders import RedisSpider #导入scrapy_redis模块# 1.修改scrapy.spider为RedisSpidercla...

2018-08-17 21:55:45 289

原创 scrapy_redis分布式爬虫

scrapy_redis更新下载：https://github.com/rmax/scrapy-redis进入页面后，复制源码链接然后使用Git,通过git clone命令clone到本地：1.修改settings.py# 使用scrapy_redis的去重类，不使用scrapy默认的去重类DUPEFILTER_CLASS = "scrapy_redis.dupefilter....

2018-08-15 22:40:13 317

原创 Redis基本命令

Redis是一个速度非常快的非关系型数据库，使用内存作为主存储，内存中的数据也可以被持久化到硬盘。Redis以键值对形式（key-value）存储数据，其中值可以分为5种类型：字符串（string）列表(list) 哈希（hash）集合（set）有序集合（zset） keyRedis 基本命令字符串Redis的字符串（string）可以存储字符串、整数、浮点数。Str...

2018-08-15 22:02:31 139

原创 redis数据库简单介绍

Redis 是完全开源免费的，遵守BSD协议，是一个高性能的key-value数据库。Redis 与其他 key - value 缓存产品有以下三个特点：Redis支持数据的持久化，可以将内存中的数据保存在磁盘中，重启的时候可以再次加载进行使用 Redis不仅仅支持简单的key-value类型的数据，同时还提供list,set,zset,hash等数据结构的存储 Redis支持数据的备...

2018-08-14 20:55:08 167

原创 ItemLoader分离数据

一般分离数据可以在主爬虫程序中进行，也可以在数据模型items中进行.使用itemloader有如下优势：1.默认使用xpath()/css()这种数据提取方式2.将数据的提取和数据的过滤等过程放在一个函数中，将数据提取和分离分成两部分使代码美观，整洁，便于阅读3.单独定义处理数据的函数，同意数据可使用多函数处理，便于代码复用items数据模型中导入模块及使用import...

2018-08-14 20:31:38 341

原创邮件传输

电子邮件传输的基本流程：假设我的电子邮箱地址是Jack@163.com,对方的；邮箱地址为Rose@sina.com我使用outlook或者foxmail之类的软件发邮件时，这些软件被称为MUA（Mail User Agent）-邮件用户代理邮件发送到MTA（Mail Transfer Agent）-邮件传输代理，这个由使用的email服务提供商决定，我使用的是网易邮箱，所以邮...

2018-08-14 19:59:14 6005

原创 Scrapy中间件

中间件多用于设置请求头信息，请求数据等# -*- coding: utf-8 -*-# Define here the models for your spider middleware## See documentation in:# https://doc.scrapy.org/en/latest/topics/spider-middleware.htmlfrom scra...

2018-08-14 19:32:35 617

原创 phantomjs使用

from selenium import webdriver# 使用webkit无界面浏览器# 如果路径为exe启动程序的路径那么该路径需要加一个rdriver = webdriver.PhantomJS(executable_path=r'D:/phantomjs-2.1.1-windows/bin/phantomjs.exe')# 获取指定网页的数据driver.get('ht...

2018-08-14 17:58:06 547

原创 Scrapy帮助

爬虫文件目录spider下，创建任意名称的.py文件写入如下内容，右键运行，可在pycharm中模拟命令行终端form scrapy import cmdline# blabla为爬虫文件的`name`值cmdline.execute("scrapy crawl blabla".split())爬虫文件中的name,allowed_domains和start_urls:na...

2018-08-14 17:25:34 322 1

原创 phantomjs安装

身为一个Python小白，我对phantomjs并不是很了解，今天安装了一遍，于是写这篇博客记录下流程，首先是对phantomjs的介绍：phantomjs介绍（1）一个基于webkit内核的无头浏览器，即没有UI界面，即它就是一个浏览器，只是其内的点击、翻页等人为相关操作需要程序设计实现。（2）提供javascript API接口，即通过编写js程序可以直...

2018-08-09 22:48:21 590

原创 MySQL安装

今天刚刚装了一遍MySQL，因此把安装MySQL的过程写一下。根据个人需要可以去官网下载合适的版本，安装方式不尽相同。1.打开安装运行程序，自动跳转至如下如，勾选同意协议点击下一步 2.默认选项，然后下一步3.连续在弹出界面默认选择确定或者next 4.待进度完成后点击下一步依旧next5.加载完成后，默认下一步6.然后fi...

2018-08-08 22:36:53 287

原创 Scrapy

Scrapy介绍 Scrapy一个开源和协作的框架，其最初是为了页面抓取（更确切来说，网络抓取）所设计的，使用它可以快速、简单、可扩展的方式从网站中提取所需的数据。但目前Scrapy的用途十分广泛，可用于如挖掘、监测和自动化测试等领域，也可以应用在API所返回的数据（例如Amazon Associates Web Services）或者通用的网络爬虫。 Scrap...

2018-08-01 23:10:29 7427

原创 seleinum安装

今天刚安装了一遍selenium，为了加强记忆，于是决定写一篇关于selenium安装的博客。首先我先简单的介绍下selenium：selenium是一个自动化测试工具在python中的应用为：1.selenium可以完全模拟人对浏览器操作，对动态数据进行获取。动态数据由代码生成，在页面初始化的过程当中是没有的，也无法获取。但是可以通过selenium来进行获取。2.有些数据是...

2018-08-01 21:25:24 490

原创 Python——sqlite3常用语句

日拱一卒无有尽，功不唐捐终入海。常见的存储数据的三种方式1.内存存储：变量优点：读写速度快缺点：程序关闭，内存释放2.文件存储：文件读写操作优点：数据永久缺点：读写操作麻烦数据库即为数据存储仓库3.数据库存储：优点：数据永久缺点：学习难度大数据库按性质划分有两种：1.关系型数据库：数...

2018-07-14 10:11:19 3140

原创 Python——方法总结

日拱一卒无有尽，功不唐捐终入海。class Pelple(object): #实例化方法在创建的时候需要一个self参数 #表示调用该方法的对象是谁 def instanceFun(self): print('我是一个实例方法')...

2018-07-13 22:55:39 162

原创 Python小知识点

日拱一卒无有尽，功不唐捐终入海。 1.默认参数必须放在参数列表的队尾普通形参必须放在默认参数的前面def test( a,b= 3): passtest()test()2. 函数参数可以为任意类型testB(testA())3.*args返回的是一个元组4.map函数里面需要两个值值1：必须是函数值2：序列/...

2018-07-12 23:09:38 156

原创 Python小知识点

1.时间戳从1970年到现在的秒数time2 = time.time()print(time2)date9 = datetime.datetime.now()print(date9.timestamp()) 上面是两种用到时间戳的代码。stamp 邮戳。timestamp 时间戳，时间线。2.线程休眠爬虫：获取对方数据太快，有可能被认为是爬...

2018-07-11 23:09:14 165

原创 Python错误信息

在敲代码的过程中总是遇到各种各样的错误。为了遇到认识的错误知道怎么处理，因此总结错误类型如下：1. IndexError : string index out of range 索引错误：字符串索引超出了范围解决办法:查看字符串的长度，索引要小于长度content ='hello world'print(content[11]) ...

2018-07-11 09:09:24 1169

HukDog的博客

原创 node.js使用

原创分布式爬虫

原创 scrapy_redis分布式爬虫

原创 Redis基本命令

原创 redis数据库简单介绍

原创 ItemLoader分离数据

原创邮件传输

原创 Scrapy中间件

原创 phantomjs使用

原创 Scrapy帮助

原创 phantomjs安装

原创 MySQL安装

原创 Scrapy

原创 seleinum安装

原创 Python——sqlite3常用语句

原创 Python——方法总结

原创 Python小知识点

原创 Python小知识点

原创 Python错误信息

空空如也

空空如也