想不到叫啥好-CSDN博客

原创 node.js 安装以及基础应用

Node.js 简单来说，就是运行在服务端的 JavaScript。它是一个基于Chrome JavaScript 运行时建立的一个平台。Node.js是一个事件驱动I/O服务端JavaScript环境，基于Google的V8引擎，V8引擎执行Javascript的速度非常快，性能非常好。接下来就简单介绍一下 node.js 的安装步骤（菜鸟教程：http://www.runoob.co...

2018-08-29 21:43:39 282

原创 scrapy-redis 实操应用----以4k风景为例

首先，在终端打开redis数据库！第一种（单机爬虫）创建命令：scrapy genspider -t crawl bizhi netbian.comimport scrapyfrom scrapy.linkextractors import LinkExtractorfrom scrapy.spiders import CrawlSpider, Ruleclass BizhiS...

2018-08-15 23:09:03 339

原创 scrapy-redis下载及项目讲解

首先，如果没有下载git，执行后续命令时，可能会报错。下载地址：https://git-scm.com/downloads安装很简单，一直进行下一步即可（个别选项依照个人需求更改）空白处鼠标右击，点击 Git Bash Here 出现窗口，输入命令：git --version 即可查看当前下载的git版本（效果如下）接下来就来下载 scrapy-redis项目下载地址：...

2018-08-15 22:09:07 1434

原创邮件发送---以163/qq邮箱为例

首先，登陆163邮箱，然后进入设置界面，进行如下操作：之后，开启授权码（千万要记住授权码！！！） qq邮箱，则是打开设置，进入账户界面，将下图位置选项开启（按照系统提示进行操作即可）：接下来就开始进行邮件发送的基本操作。首先，设置邮箱的域名、邮件标题、发件人、收件人邮箱，以及邮件信息（如下）：import smtplib# 因为需要使用这个模块，所以当前py文...

2018-08-14 15:46:55 1225

原创分布式爬虫、redis介绍及安装

目录分布式爬虫redis数据库的特点redis及可视化工具安装分布式爬虫1.什么是分布式爬虫？默认情况下 scrapy 爬虫是淡季爬虫，只能在一台电脑上运行，因为爬虫调度器当中的队列queue去重和set集合都是在本机上创建的，其他电脑无法访问另一台电脑上的内存的内容2.分布式爬虫用一个共同的爬虫程序同时部署到多台电脑上运行，这样可以提高爬虫速度，实现分布式...

2018-08-14 12:13:52 402

原创 scrapy 抓取动态数据---以淘宝为例

1.首先，确保安装了ptantomjs，如没有安装，安装教程链接为：https://blog.csdn.net/weixin_42657103/article/details/81543113安装完成后，创建爬虫项目，然后进入middleware.py 中，进行如下操作：from scrapy import signalsfrom selenium import webdriver...

2018-08-13 20:53:05 1629

原创 scrapy 自定义管道保存图片、json、csv文件格式以及MySQL

在上一篇博客中，简单的介绍了系统自带的管道保存方法，今天来讲一下如何用自定义的管道来保存文件以及图片。1.保存图片：开始的步骤，保持不变，成功获取数据后，进入到pipeline.py里面，引入 from scrapy.pipelines.images import ImagesPipeline, 并且继承 ImagesPipeline （如下图）：import scrapy# Im...

2018-08-13 20:06:31 2492

原创 phantomjs 安装教程

PhantomJS是一个基于webkit的JavaScript API。它使用QtWebKit作为它核心浏览器的功能，使用webkit来编译解释执行JavaScript代码。任何你可以在基于webkit浏览器做的事情，它都能做到。它不仅是个隐形的浏览器，提供了诸如CSS选择器、支持Web标准、DOM操作、JSON、HTML5、Canvas、SVG等，同时也提供了处理文件I/O的操作，从而使...

2018-08-09 20:30:05 15369

原创 mySQL 安装教程

首先下载mySQL数据库安装包,下载地址：https://dev.mysql.com/downloads/windows/installer/8.0.html1.下载好后，点击运行，出现如下界面，勾选标记1，然后点击进行下一步操作：2.点击Next后，按照下图顺序进行操作：3.照上图操作后，进入下一页，选择第一条内容后，点击下一步：4.界面会变成下图，直接点...

2018-08-08 23:02:09 308

原创 scrapy 图片下载管道以及文件下载管道

1.图片下载管道：获取指定的图片链接：imgSrc = ul.xpath('.//img/@src2').extract()[0]item['imgSrc'] = [imgSrc]yield item进入settings.py 里面，进行如下操作：ITEM_PIPELINES = { # 'imageNet.pipelines.ImagenetPipeline'...

2018-08-04 17:20:16 1783 1

原创 scrapy爬虫的常用小命令

1.创建项目：scrapy startproject baidu2.生成爬虫文件：scrapy genspider baiduSpider baidu.com3.运行命令：运行命令：scrapy crawl baiduSpider4.保存文件的指定类型：scrapy crawl baiduSpider -o bai.xml(json/csv)5.json格式解码：scrapy ...

2018-08-04 17:09:18 383

原创 scrapy使用教程

1.首先找到一个指定的路径,比如桌面，cd过去2.在终端输入创建项目的命令：scrapy startproject baidu3.如图所示，则创建成功，然后输入提示的命令：cd baidu 4.在指定目录，则会生成一下文件：其中：spiders：以后所有创建的爬虫文件都会放在此文件夹下；__init__.py：初始化文件；items.py：存放数据模型；...

2018-08-04 16:47:33 5659 1

原创爬虫--获取文本并拼接的几种方法

以爬小说吧为例import scrapyimport reclass QingrenSpider(scrapy.Spider): name = 'qingren' allowed_domains = ['tieba.baidu.com'] start_urls = ['https://tieba.baidu.com/p/5820130343'] f ...

2018-08-04 16:19:22 3548

原创线程锁、线程队列、yield

1. 线程锁：当有一个数据有多个线程对其进行修改的时候，任意个线程改变它都会对其他线程造成影响。如果想在某一个线程使用完之前，其他线程不能对其进行修改，就需要对这个线程加一个线程锁。import threadingimport timeimport randomcount = 0def get_money(money): global count count +=...

2018-08-01 23:05:04 330

原创线程

线程分为主线程和分线程：代码运行默认在主线程里面，如果需要执行新的任务，可以开辟新线程；分线程没有个数限制，分线程里面的任务结束以后，分线程结束。分线程的使用场景：1.当有大量任务需要执行的时候，可以将任务放入到分线程里面；2.当有大量任务需要执行的时候，而任务的执行顺序需要指定时，可以使用分线程；3.当界面有大量的UI需要更新的时候，需要放入到分线程里面。imp...

2018-08-01 22:56:09 265

原创 scrapy安装教程

今天介绍两种Scrapy 的安装方式，说明一下Python3x环境下的安装过程。1.pip安装方式：用cmd打开Windows的命令执行窗口，输入：pip install scrapy 命令安装提示：Microsoft Visual C++ 14.0 is required. Get it with "Microsoft Visual C++ Build Tools" 于是...

2018-08-01 21:20:28 521

原创 selenium下按键操作、时间等待、点击事件基本操作

1.按键操作from selenium.webdriver.common.keys import Keysfrom selenium import webdriverimport timedriver = webdriver.Firefox()driver.get('http://www.baidu.com')time.sleep(3)# 找到输入框并且输入指定内容driv...

2018-07-31 22:54:18 10192

原创正则、xpath、bs4三者区别

本篇以获取美食杰菜谱图片为例，分别采用正则、xpath、bs4 三种方式，获取同一内容，进行对比，分析三者区别。url = 'https://www.meishij.net/chufang/diy/guowaicaipu1/japan/'headers = { 'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:...

2018-07-31 22:18:14 4374 2

原创 requests请求

requests 是对 urlopen 的封装常用方法如下：import requestsurl = 'http://www.baidu.com'# get和pose请求response = requests.get(url)# 请求成功print(response)# 获取网页文本内容print(response.text)# reason 原因# 请求状态的说明pr...

2018-07-31 22:04:23 216

原创正则、xpath、bs4 的基本用法

数据匹配的三种方法：正则、xpath、bs41.正则：import re正则表达式可以判断目标字符串是否符合特定要求，比如手机号、身份证号、邮箱号等。常用的标记如下：# digit\d ：表示任意的一位数字\d\d:表示任意的两位数字# word\w：表示任意的一个字母和数字# space\s：表示空格. :表示任意的内容 123 a,b,c,!@# 不单独...

2018-07-31 21:56:54 792

原创 python下csv基础操作

csv：comma sepreated value 逗号分割值基础写入、读取操作如下：注意：csv文件在写入的时候，默认每次写入都会有一个空行作为分割。为此，使用 newline=' ' 去掉空行。控制台输入数据，并写入csv中：其效果如下：其中，第24行代码由三句代码组合而成：写入一个字典到csv中：...

2018-07-30 21:45:15 1190

原创 python下selenium模拟浏览器基础操作

1.安装及下载selenium安装： pip install selenium 即可自动安装seleniumgeckodriver下载：https://github.com/mozilla/geckodriver/releasesChromedriver下载：http://npm.taobao.org/mirrors/chromedriver/2.保存路径将下...

2018-07-30 20:10:52 7205 1

原创基础的10个错误

1.类型错误：必须为一个字符串而非数字name = '小张' age = 17print('我的名字是' + name +',我的年龄是' + age)报错信息：TypeError: must be str, not int 2.语法错误：if name == '小张'print('Hello')报错信息：SyntaxError: invalid synt...

2018-07-10 21:10:51 430

weixin_42657103的博客