自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

HukDog的博客

日拱一卒无有尽,功不唐捐终入海

  • 博客(19)
  • 收藏
  • 关注

原创 node.js使用

简单的说Node.js就是运行在服务端的JavaScript。Node.js是一个基于Chrome JavaScript运行时建立的一个平台。Node.js是一个事件驱动I/O服务端JavaScript环境,基于Google的V8引擎,V8引擎执行JavaScript的速度非常快,性能非常好。1.node.js,进入链接,选择合适的电脑型号安装,按照提示next,安装后在终端中键入no...

2018-08-29 22:52:28 264

原创 分布式爬虫

修改普通爬虫项目为分布式爬虫1.主爬虫文件myspider.py 做如下修改,其他不做修改:import scrapyfrom ..items import MyItem # 导入数据模型from scrapy_redis.spiders import RedisSpider #导入scrapy_redis模块# 1.修改scrapy.spider为RedisSpidercla...

2018-08-17 21:55:45 289

原创 scrapy_redis分布式爬虫

scrapy_redis更新下载:https://github.com/rmax/scrapy-redis进入页面后,复制源码链接然后使用Git,通过git clone命令clone到本地:1.修改settings.py# 使用scrapy_redis的去重类,不使用scrapy默认的去重类DUPEFILTER_CLASS = "scrapy_redis.dupefilter....

2018-08-15 22:40:13 317

原创 Redis基本命令

Redis是一个速度非常快的非关系型数据库,使用内存作为主存储,内存中的数据也可以被持久化到硬盘。Redis以键值对形式(key-value)存储数据,其中值可以分为5种类型:字符串(string) 列表(list) 哈希(hash) 集合(set) 有序集合(zset) keyRedis 基本命令字符串Redis的字符串(string)可以存储字符串、整数、浮点数。Str...

2018-08-15 22:02:31 139

原创 redis数据库简单介绍

Redis 是完全开源免费的,遵守BSD协议,是一个高性能的key-value数据库。Redis 与其他 key - value 缓存产品有以下三个特点:Redis支持数据的持久化,可以将内存中的数据保存在磁盘中,重启的时候可以再次加载进行使用 Redis不仅仅支持简单的key-value类型的数据,同时还提供list,set,zset,hash等数据结构的存储 Redis支持数据的备...

2018-08-14 20:55:08 167

原创 ItemLoader分离数据

一般分离数据可以在主爬虫程序中进行,也可以在数据模型items中进行.使用itemloader有如下优势:1.默认使用xpath()/css()这种数据提取方式2.将数据的提取和数据的过滤等过程放在一个函数中,将数据提取和分离分成两部分使代码美观,整洁,便于阅读3.单独定义处理数据的函数,同意数据可使用多函数处理,便于代码复用items数据模型中导入模块及使用import...

2018-08-14 20:31:38 341

原创 邮件传输

电子邮件传输的基本流程:假设我的电子邮箱地址是Jack@163.com,对方的;邮箱地址为Rose@sina.com我使用outlook或者foxmail之类的软件发邮件时,这些软件被称为MUA(Mail  User  Agent)-邮件用户代理邮件发送到MTA(Mail Transfer Agent)-邮件传输代理,这个由使用的email服务提供商决定,我使用的是网易邮箱,所以邮...

2018-08-14 19:59:14 6005

原创 Scrapy中间件

中间件多用于设置请求头信息,请求数据等# -*- coding: utf-8 -*-# Define here the models for your spider middleware## See documentation in:# https://doc.scrapy.org/en/latest/topics/spider-middleware.htmlfrom scra...

2018-08-14 19:32:35 617

原创 phantomjs使用

from selenium import webdriver# 使用webkit无界面浏览器# 如果路径为exe启动程序的路径 那么该路径需要加一个rdriver = webdriver.PhantomJS(executable_path=r'D:/phantomjs-2.1.1-windows/bin/phantomjs.exe')# 获取指定网页的数据driver.get('ht...

2018-08-14 17:58:06 547

原创 Scrapy帮助

爬虫文件目录spider下,创建任意名称的.py文件写入如下内容,右键运行,可在pycharm中模拟命令行终端form scrapy import cmdline# blabla为爬虫文件的`name`值cmdline.execute("scrapy crawl blabla".split())爬虫文件中的name,allowed_domains和start_urls:na...

2018-08-14 17:25:34 322 1

原创 phantomjs安装

    身为一个Python小白,我对phantomjs并不是很了解,今天安装了一遍,于是写这篇博客记录下流程,首先是对phantomjs的介绍:phantomjs介绍     (1)一个基于webkit内核的无头浏览器,即没有UI界面,即它就是一个浏览器,只是其内的点击、翻页等人为相关操作需要程序设计实现。     (2)提供javascript API接口,即通过编写js程序可以直...

2018-08-09 22:48:21 590

原创 MySQL安装

今天刚刚装了一遍MySQL,因此把安装MySQL的过程写一下。根据个人需要可以去官网下载合适的版本,安装方式不尽相同。1.打开安装运行程序,自动跳转至如下如,勾选同意协议点击下一步  2.默认选项,然后下一步3.连续在弹出界面默认选择确定或者next 4.待进度完成后点击下一步依旧next5.加载完成后,默认下一步6.然后fi...

2018-08-08 22:36:53 287

原创 Scrapy

Scrapy介绍     Scrapy一个开源和协作的框架,其最初是为了页面抓取(更确切来说,网络抓取)所设计的,使用它可以快速、简单、可扩展的方式从网站中提取所需的数据。但目前Scrapy的用途十分广泛,可用于如挖掘、监测和自动化测试等领域,也可以应用在API所返回的数据(例如Amazon Associates Web Services)或者通用的网络爬虫。      Scrap...

2018-08-01 23:10:29 7427

原创 seleinum安装

今天刚安装了一遍selenium,为了加强记忆,于是决定写一篇关于selenium安装的博客。首先我先简单的介绍下selenium:selenium是一个自动化测试工具在python中的应用为:1.selenium可以完全模拟人对浏览器操作,对动态数据进行获取。动态数据由代码生成,在页面初始化的过程当中是没有的,也无法获取。但是可以通过selenium来进行获取。2.有些数据是...

2018-08-01 21:25:24 490

原创 Python——sqlite3常用语句

        日拱一卒无有尽,功不唐捐终入海。 常见的存储数据的三种方式1.内存存储:变量      优点:读写速度快      缺点:程序关闭,内存释放2.文件存储:文件读写操作      优点:数据永久    缺点:读写操作麻烦数据库即为数据存储仓库3.数据库存储:  优点:数据永久      缺点:学习难度大 数据库按性质划分有两种:1.关系型数据库:数...

2018-07-14 10:11:19 3140

原创 Python——方法总结

        日拱一卒无有尽,功不唐捐终入海。class Pelple(object):           #实例化方法  在创建的时候需要一个self参数           #表示调用该方法的对象是谁            def instanceFun(self):                                print('我是一个实例方法')...

2018-07-13 22:55:39 162

原创 Python小知识点

    日拱一卒无有尽,功不唐捐终入海。 1.默认参数 必须放在参数列表的队尾   普通形参必须放在默认参数的前面def test( a,b= 3): passtest()test()2. 函数参数可以为任意类型testB(testA())3.*args返回的是一个元组4.map函数里面需要两个值    值1:必须是函数    值2:序列/...

2018-07-12 23:09:38 156

原创 Python小知识点

 1.时间戳    从1970年到现在的秒数time2 = time.time()print(time2)date9 = datetime.datetime.now()print(date9.timestamp())    上面是两种用到时间戳的代码。stamp 邮戳。timestamp 时间戳,时间线。2.线程休眠    爬虫:获取对方数据太快,有可能被认为是爬...

2018-07-11 23:09:14 165

原创 Python错误信息

        在敲代码的过程中总是遇到各种各样的错误。为了遇到认识的错误知道怎么处理,因此总结错误类型如下:1. IndexError :  string index out of range     索引错误:字符串索引超出了范围    解决办法:查看字符串的长度,索引要小于长度content ='hello world'print(content[11]) ...

2018-07-11 09:09:24 1169

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除