自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(23)
  • 收藏
  • 关注

原创 node.js 安装以及基础应用

 Node.js  简单来说,就是运行在服务端的 JavaScript。它是一个基于Chrome JavaScript 运行时建立的一个平台。Node.js是一个事件驱动I/O服务端JavaScript环境,基于Google的V8引擎,V8引擎执行Javascript的速度非常快,性能非常好。接下来就简单介绍一下 node.js 的安装步骤(菜鸟教程 :http://www.runoob.co...

2018-08-29 21:43:39 204

原创 scrapy-redis 实操应用----以4k风景为例

首先,在终端打开redis数据库!第一种(单机爬虫)创建命令:scrapy genspider -t crawl bizhi netbian.comimport scrapyfrom scrapy.linkextractors import LinkExtractorfrom scrapy.spiders import CrawlSpider, Ruleclass BizhiS...

2018-08-15 23:09:03 250

原创 scrapy-redis下载及项目讲解

首先,如果没有下载git,执行后续命令时,可能会报错。下载地址:https://git-scm.com/downloads安装很简单,一直进行下一步即可(个别选项依照个人需求更改)空白处鼠标右击,点击 Git Bash Here 出现窗口,输入命令:git --version 即可查看当前下载的git版本(效果如下)接下来就来下载 scrapy-redis项目下载地址:...

2018-08-15 22:09:07 1326

原创 邮件发送---以163/qq邮箱为例

首先,登陆163邮箱,然后进入设置界面,进行如下操作:之后,开启授权码(千万要记住授权码!!!) qq邮箱,则是打开设置,进入账户界面,将下图位置选项开启(按照系统提示进行操作即可): 接下来就开始进行邮件发送的基本操作。首先,设置邮箱的域名、邮件标题、发件人、收件人邮箱,以及邮件信息(如下):import smtplib# 因为需要使用这个模块,所以当前py文...

2018-08-14 15:46:55 954

原创 分布式爬虫、redis介绍及安装

 目录分布式爬虫redis数据库的特点redis及可视化工具安装 分布式爬虫1.什么是分布式爬虫?  默认情况下 scrapy 爬虫是淡季爬虫,只能在一台电脑上运行,因为爬虫调度器当中的队列queue去重和set集合都是在本机上创建的,其他电脑无法访问另一台电脑上的内存的内容2.分布式爬虫用一个共同的爬虫程序 同时部署到多台电脑上运行, 这样可以提高爬虫速度,实现分布式...

2018-08-14 12:13:52 277

原创 scrapy 抓取动态数据---以淘宝为例

1.首先,确保安装了ptantomjs,如没有安装,安装教程链接为:https://blog.csdn.net/weixin_42657103/article/details/81543113安装完成后,创建爬虫项目,然后进入middleware.py 中,进行如下操作:from scrapy import signalsfrom selenium import webdriver...

2018-08-13 20:53:05 1502

原创 scrapy 自定义管道保存图片、json、csv文件格式以及MySQL

在上一篇博客中,简单的介绍了系统自带的管道保存方法,今天来讲一下如何用自定义的管道来保存文件以及图片。1.保存图片:开始的步骤,保持不变,成功获取数据后,进入到pipeline.py里面,引入 from scrapy.pipelines.images import ImagesPipeline, 并且继承 ImagesPipeline (如下图):import scrapy# Im...

2018-08-13 20:06:31 2359

原创 phantomjs 安装教程

    PhantomJS是一个基于webkit的JavaScript API。它使用QtWebKit作为它核心浏览器的功能,使用webkit来编译解释执行JavaScript代码。任何你可以在基于webkit浏览器做的事情,它都能做到。它不仅是个隐形的浏览器,提供了诸如CSS选择器、支持Web标准、DOM操作、JSON、HTML5、Canvas、SVG等,同时也提供了处理文件I/O的操作,从而使...

2018-08-09 20:30:05 14841

原创 mySQL 安装教程

    首先下载mySQL数据库安装包,下载地址:https://dev.mysql.com/downloads/windows/installer/8.0.html1.下载好后,点击运行,出现如下界面,勾选标记1,然后点击进行下一步操作:2.点击Next后,按照下图顺序进行操作:3.照上图操作后,进入下一页,选择第一条内容后,点击下一步:4.界面会变成下图,直接点...

2018-08-08 23:02:09 227

原创 scrapy 图片下载管道以及文件下载管道

1.图片下载管道:获取指定的图片链接:imgSrc = ul.xpath('.//img/@src2').extract()[0]item['imgSrc'] = [imgSrc]yield item进入settings.py 里面,进行如下操作 :ITEM_PIPELINES = { # 'imageNet.pipelines.ImagenetPipeline'...

2018-08-04 17:20:16 1658 1

原创 scrapy爬虫的常用小命令

1.创建项目:scrapy startproject baidu2.生成爬虫文件:scrapy genspider baiduSpider baidu.com3.运行命令:运行命令:scrapy crawl baiduSpider4.保存文件的指定类型:scrapy crawl baiduSpider -o bai.xml(json/csv)5.json格式解码:scrapy ...

2018-08-04 17:09:18 322

原创 scrapy使用教程

1.首先找到一个指定的路径,比如桌面,cd过去2.在终端输入创建项目的命令:scrapy startproject baidu3.如图所示,则创建成功,然后输入提示的命令:cd baidu 4.在指定目录,则会生成一下文件:其中:spiders:以后所有创建的爬虫文件都会放在此文件夹下;__init__.py:初始化文件;items.py:存放数据模型;...

2018-08-04 16:47:33 5468 1

原创 爬虫--获取文本并拼接的几种方法

以爬 小说吧 为例import scrapyimport reclass QingrenSpider(scrapy.Spider): name = 'qingren' allowed_domains = ['tieba.baidu.com'] start_urls = ['https://tieba.baidu.com/p/5820130343'] f ...

2018-08-04 16:19:22 3358

原创 线程锁、线程队列、yield

1.  线程锁:当有一个数据有多个线程对其进行修改的时候,任意个线程改变它都会对其他线程造成影响。如果想在某一个线程使用完之前,其他线程不能对其进行修改,就需要对这个线程加一个线程锁。import threadingimport timeimport randomcount = 0def get_money(money): global count count +=...

2018-08-01 23:05:04 244

原创 线程

    线程分为主线程和分线程:代码运行默认在主线程里面,如果需要执行新的任务,可以开辟新线程;分线程没有个数限制,分线程里面的任务结束以后,分线程结束。分线程的使用场景:1.当有大量任务需要执行的时候,可以将任务放入到分线程里面;2.当有大量任务需要执行的时候,而任务的执行顺序需要指定时,可以使用分线程;3.当界面有大量的UI需要更新的时候,需要放入到分线程里面。imp...

2018-08-01 22:56:09 196

原创 scrapy安装教程

今天介绍两种Scrapy 的安装方式,说明一下Python3x环境下的安装过程。1.pip安装方式:用cmd打开Windows的命令执行窗口,输入 :pip install scrapy    命令安装提示:Microsoft Visual C++ 14.0 is required. Get it with "Microsoft Visual C++ Build Tools"   于是...

2018-08-01 21:20:28 423

原创 selenium下 按键操作、时间等待、点击事件基本操作

1.按键操作from selenium.webdriver.common.keys import Keysfrom selenium import webdriverimport timedriver = webdriver.Firefox()driver.get('http://www.baidu.com')time.sleep(3)# 找到输入框 并且输入指定内容driv...

2018-07-31 22:54:18 9781

原创 正则、xpath、bs4三者区别

本篇以 获取美食杰菜谱图片 为例,分别采用正则、xpath、bs4 三种方式,获取同一内容,进行对比,分析三者区别。url = 'https://www.meishij.net/chufang/diy/guowaicaipu1/japan/'headers = { 'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:...

2018-07-31 22:18:14 4218 2

原创 requests请求

requests 是对 urlopen 的封装常用方法如下:import requestsurl = 'http://www.baidu.com'# get和pose请求response = requests.get(url)# 请求成功print(response)# 获取网页文本内容print(response.text)# reason 原因# 请求状态的说明pr...

2018-07-31 22:04:23 174

原创 正则、xpath、bs4 的基本用法

数据匹配的三种方法:正则、xpath、bs41.正则 :import re正则表达式可以判断目标字符串是否符合特定要求,比如手机号、身份证号、邮箱号等。常用的标记如下:# digit\d :表示任意的一位数字\d\d:表示任意的两位数字# word\w:表示任意的一个字母和数字# space\s:表示 空格. :表示任意的内容 123 a,b,c,!@# 不单独...

2018-07-31 21:56:54 684

原创 python下csv基础操作

csv:comma sepreated value 逗号分割值基础写入、读取操作如下:注意:csv文件在写入的时候,默认每次写入都会有一个空行作为分割。为此,使用 newline=' '  去掉空行。控制台输入数据,并写入csv中:其效果如下:其中,第24行代码由三句代码组合而成:写入一个字典到csv中:...

2018-07-30 21:45:15 1128

原创 python下selenium模拟浏览器基础操作

1.安装及下载selenium安装: pip install selenium  即可自动安装seleniumgeckodriver下载:https://github.com/mozilla/geckodriver/releasesChromedriver下载:http://npm.taobao.org/mirrors/chromedriver/2.保存路径    将下...

2018-07-30 20:10:52 7089 1

原创 基础的10个错误

1.类型错误:必须为一个字符串 而非数字name = '小张' age = 17print('我的名字是' + name +',我的年龄是' + age)报错信息:TypeError: must be str, not int   2.语法错误:if name == '小张'print('Hello')报错信息:SyntaxError: invalid synt...

2018-07-10 21:10:51 368

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除