自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(116)
  • 收藏
  • 关注

转载 6-爬取英语外教和中国老师招聘数据,并将其进行对比(薪资、学历、经验等)...

说明: 项目主要爬取英语外教与中国老师招聘数据,并对数据进行比较分析。 外教的招聘信息(JobLeadChina网站):http://www.jobleadchina.com/job?job_industry=Teaching 中国老师的招聘信息(万行教师人才网站):http://www...

2019-09-09 18:32:19 1750

转载 5-随机抓取易烊千玺置顶100万+转发微博的转发数据,并分析真假粉丝比例

说明: 项目主要随机抓取易烊千玺100万+转发的微博置顶的100万条转发数据,并利用数据可视化的方式分析易烊千玺真假粉丝比例。 分为:爬虫+数据分析 一、爬虫【爬取易烊千玺100万条的转发数据】 #爬取微博的移动端#爬取链接:https://m.weibo.cn/api/stat...

2019-09-04 14:44:00 7272

转载 1-Python与机器学习入门

1.1机器学习绪论 (1)什么是机器学习? 机器学习是一种让计算机利用数据而非指令来进行各种工作的方法。 机器学习是一个计算机程序,针对某个特定的任务,从经验中学习,且越做越好。 机器学习在统计理论下的、比较深刻的本质:它追求的是合理的假设空间(Hypothesis Space)的选...

2019-08-30 13:24:00 481

转载 39-Scrapy-Redis构建-IT桔子分布式爬虫项目【网络学习】

分析: IT桔子(https://www.itjuzi.com/)是一个用于提供数据的网站。 需要登录才能查看,并且20页之后的信息不能查看。 解决需要登录才能查看的问题,带上cookie访问。 参考:https://blog.csdn.net/sinat_35360663...

2019-08-30 08:58:00 307

转载 38-Scrapy-Redis构建-有缘网分布式爬虫项目【网络学习】

1、分析 爬取有缘网上: 1-1、网址变化 第一页网址:http://www.youyuan.com/find/beijing/mm18-25/advance-0-0-0-0-0-0/p1/ 第二页就是变为p2,第三页就是变为p3 【共有2206423人,大数据】 1-...

2019-08-30 08:46:00 209

转载 11.3-Scrapy-Redis分布式爬虫重点知识

Scrapy-Redis分布式爬虫构建的要点 1、master端将请求放到redis数据库中, slaver端(爬虫端)可以共享数据。 2、不同slaver端的机器1、机器2根据优先级获取redis数据库中的数据,保证不同slaver端的机器获取的请求不会重复,则分布式爬取的信息不会重复...

2019-08-30 08:13:00 106

转载 11.2-Scrapy-Redis官方案例演示【example-project文件夹】

官网网址:https://github.com/rmax/scrapy-redis 官网项目:example-project文件夹 1、对example-project文件夹解析【外面的文件】 (1)docker-compose.yml redis: image: redi...

2019-08-29 17:32:00 437

转载 11.1-Scrapy-Redis分布式构架详解

要点: Scrapy-Redis不是框架,也不是一套可以单独运行的东西 Scrapy-Redis是一套基于Scrapy框架的组件,它提供了一堆可以支持分布式的组件,用来替换Scrapy原本的一些东西,然后让Scrapy具有分布式的功能。 安装scrapy-redis=====...

2019-08-29 16:51:00 617

转载 2-Cookies池(CookiesPool)

1、文件夹中的分布 2、各个代码的内容以及作用 (2-1)README.md # CookiesPool可扩展的Cookies池,目前对接了马蜂网站,[mafengwo.cn](http://www.mafengwo.cn/),可自行扩展其他站点### 接口基本配置...

2019-08-28 17:01:00 522

转载 1-代理池(ProxyPool)-Redis+Flask维护动态代理池

1、分析 (1)为什么使用代理池? 许多网站上有专门的反爬虫措施,可能遇到封IP等问题 互联网上公开了大量免费代理,利用好资源 通过定时的检测维护同样可以得到多个可用代理 (2)代理池的需求 多站抓取 异步检测 定时筛选 持续更新 提供接口 ...

2019-08-28 16:46:00 1192

转载 37-Scrapy框架-知乎用户分析+存储到MongoDB-【递归爬虫】

分析目的: 选定起始人:选定一位关注数或粉丝数较多的大V作为爬虫起始点 获取粉丝和关注列表:通过知乎接口获得该大V的粉丝列表和关注列表 获取列表用户信息:通过知乎接口获得列表中每位用户的详细信息 获取每位用户的粉丝和关注:进一步对列表中的每一个用户,获取他们的粉丝和关注列表...

2019-08-28 15:49:00 145

转载 10.2-Scrapy抓取过程遇到的问题-代理IP的使用/Cookie的使用/js处理技巧

问题一:代理IP的使用 1、原理简述 用户(A) 在线代理服务器(B) 目标网站(C) 即:A向B发送浏览请求,B执行请求发送给C,C收到请求回应。 2、实现方法(实现代理IP): Spider Middlewares / Download...

2019-08-27 14:03:00 237

转载 10.1-Scrapy使用技巧-多级页面爬取/图片抓取

技巧一:多级页面的抓取 分析: 爬取天猫商城中女装排名前60个商品的信息(此处:不涉及翻页) 爬取网址 https://list.tmall.com/search_product.htm?q=女装 爬取信息:商品情况(价格、名称、url)店铺情况(名称、url、公司地址...

2019-08-27 13:19:00 1039

转载 36-Scrapy框架-西刺网代理爬取+存储到MySQL

目的: 爬取西刺网https://www.xicidaili.com/nn下3799页的代理相关信息 将爬取的信息存储到mysql数据库 采用基于spider类的Scrapy框架爬虫,所以在构建爬取页面时,需要自己手动设置下一页。 【虽然该方法比较笨,但是能够保证不出错】 ...

2019-08-27 10:15:00 147

转载 35-Scrapy框架-生物谷登录+爬取CFDA信息

目的: 登录生物谷网站 http://login.bioon.com/login,实际post请求的网站为:http://login.bioon.com/login/do_login 访问生物谷中的CFDA信息网站http://news.bioon.com/cfda,获取该页面下每...

2019-08-26 17:58:00 306

转载 9.5-Scrapy框架【进阶】-settings.py文件详解

settings.py文件中常用的配置如下: (1)BOT_NAME 爬虫名 默认:scrapybot 当使用stratproject命名创建项目时,其他也被自动赋值 (2)CONCURRENT_ITEMS 同时处理item的最大值 默认:100 It...

2019-08-15 18:05:00 246

转载 9.4-Scrapy框架爬虫【进阶】-Downloader Middleware用法

下载器中间件(Downloader Middleware) 其介于Scrapy的request/response处理的钩子框架。 是用于全局修改Scrapy request和response的一个轻量、底层的系统。 1、激活下载器中间件 要激活下载器中间件组件,将其加入到...

2019-08-15 17:44:00 241

转载 9.3-Scrapy框架爬虫【进阶】-Item Pipelines用法

Scrapy提供了Item类。 Item对象是种简单的容器(类似于字典(dict,键值对)),保存爬取到得数据。 1、声明Item Item使用简单的class定义语法和Filed对象来申明,例如: from scrapy import Field,Itemclass Produ...

2019-08-15 16:39:00 377

转载 9.2-Scrapy框架爬虫【进阶】-spiders用法

1、爬虫(Spiders) Spider类定义了如何爬取某个(或某些)网站。包括爬取的动作(例:是否跟进链接)以及如何从网页的内容中提取结构化数据(爬取item)。 ===>则Spider就是定义的爬取动作及分析某个网页。 对于Spider,爬取循环做以下...

2019-08-15 15:08:00 204

转载 34-Scrapy框架-新浪网分类资讯-【三级信息:大标题/小标题/内容】

目的:爬取新浪网站导航(http://news.sina.com.cn/guide/) 难点:爬取三级信息:大标题-->小标题-->内容信息 1、cmd中的操作 C:\Users\Administrator\Desktop>scrapy startproject sin...

2019-08-15 11:18:00 160

转载 33-Scrapy框架-豆瓣电影top250-【存储到mongodb/代理验证】

目的:爬取豆瓣电影(https://movie.douban.com/top250),并将信息(电影标题、信息、评分、简介)保存到本地数据库 分析1: 针对每页(比如首页:https://movie.douban.com/top250?start=0)【start以25的间隔增加】 ...

2019-08-15 09:24:00 606

转载 9.1-Scrapy爬虫框架【进阶】-防止反爬+模拟登陆

一、通常防止爬虫被反主要有以下几个策略 动态设置User-Agent(随机切换User-Agent,模拟不同用户的浏览器信息) 禁用cookies(也就是不启动Cookies Middleware,不向server发送cookies,有些网站通过cookie的使用发现爬虫行...

2019-08-14 16:57:00 365

转载 32-CrawlSpider类爬虫与Spider类爬虫比较-【都是基于Scrapy框架】

任务:爬取“阳光热线问政平台的每个投诉信息(标题、编号、内容、链接)” 要点:涉及翻页 比较:这两种方法都可以完成任务 方法一使用CrawlSpider类,其中涉及Rule来解析网页中的链接,比较简单,但是可能会出现“假链接” 方法二使用Spider类,需要自己手动...

2019-08-14 15:26:00 188

转载 8-CrawlSpider类-【Scrapy框架的进阶】

说明: CrawlSpider类===>是spider的子类 CrawlSpider增加了2个成员 rules 定义一些规则(链接怎么追踪;使用哪一个parse函数解析此链接) parse_start_url(response) 解析初始url的响应 一、简介...

2019-08-14 13:34:00 197

转载 31-scrapy框架爬虫【简单应用】-3个例子

说明:通过下述3个例子,实现对scrapy框架的简单认识以及使用。 难度说明:例1<<例2<<例3 【例2和例3涉及翻页】 【例3涉及到图片...

2019-08-14 09:45:00 296

转载 30-多线程爬虫-爬取糗事百科

说明:爬取 糗事百科 'https://www.qiushibaike.com/8hr/page/{}/'.format(page_num) 爬取 信息:题目、好笑、评论、转发、发表人 1、单进程版本的糗事百科爬虫(常规的爬虫) import requ...

2019-08-13 17:31:00 265

转载 7.2-urllib库的高级使用

urllib库中Handler处理器和自定义Opener 基本的urllib.request.urlopen()方法不支持代理、cookie等其他的HTTP/HTTPS高级功能,则需要: 使用相关的Handler处理器,来创建特定功能的处理器对象 然后通过urllib.requ...

2019-08-13 14:19:00 105

转载 7.1-urllib库的基本使用

说明: urllib2是python2.7自带的模块 urllib2在python3.x中被修改为urllib.request 1、urllib.request.urlopen()详解 (1)介绍 urllib.request.urlopen()函数用于实现对目标url的...

2019-08-13 10:50:00 161

转载 3.7-Redis(非关系型数据库)-与python交互

1、redis与Python交互的简单例子 from redis import *r=StrictRedis(host='localhost',port=6379)#写pipe=r.pipeline()pipe.set('py1','hello')pipe.set(...

2019-07-13 10:15:00 118

转载 3.6-Redis(非关系型数据库)-复制(Master Slave)

1、复制是什么? 即主从复制,主机数据更新后根据配置和策略,自动同步到备机的master/slaver机制,master以写为主,slave以读为主。 其能够进行:读写分离+容灾恢复 2、怎么使用复制? (1)配从(库)不配主(库) (2)从库配置:slaveof 主库IP 主库...

2019-07-13 09:58:00 127

转载 3.5-Redis(非关系型数据库)-事务

1、redis中的事务是什么? Redis 事务可以一次执行多个命令, 并且带有以下三个重要的保证: 批量操作在发送 EXEC 命令前被放入队列缓存。 收到 EXEC 命令后进入事务执行,事务中任意命令执行失败,其余的命令依然被执行。 在事务执行过程,其他客户端提交的命令请...

2019-07-13 09:48:00 438

转载 3.4-Redis(非关系型数据库)-持久化RDB和AOF

Redis的持久化:RDB(Redis DataBase)、AOF(Append Only File) 一、Redis持久化之RDB(Redis DataBase) 1、RDB是什么? 在指定的时间间隔内将内存的数据集快照写入磁盘,也就是通常讲的snapshot快照,它恢复时...

2019-07-13 09:12:00 120

转载 3.3-redis(非关系型数据库)-解析配置文件redisconf

Redis解析配置文件(redis.config):【包含:units单位+INCLUDES包含+GENERAL通用+SANPAHOTTING快照+REPLICATION复制+SECURITY安全+LIMITS限制+APPEND ONLY MODE 追加+常见配置redis.conf介绍】 ...

2019-07-13 08:55:00 87

转载 3.2-redis(非关系型数据库)-数据类型

1、Redis五大数据类型: string(字符串)、hash(哈希,类似于Java的map)、list(列表)、set(集合)、zset(有序集合) (1)String字符串 String是Redis最基本的类型,一个key对应一个value,其中value最多为512M ...

2019-07-13 08:38:00 145

转载 3.1-redis(非关系型数据库)-简介

1、Redis是什么? (1)Redis:REmote DIctionary Server(远程字典服务器) (2)开源免费、用C语言编写;是一个高性能的(key/value)分布式内存数据库,基于内存运行,并支持持久化的NOSQL数据库 (3)Redis与其他key-value缓存产...

2019-07-13 08:28:00 90

转载 2.2-MongoDB(非关系型数据库)-增删改查

开启MongoDB基础操作: (1)首先打开两个cmd, (2)第一个cmd先启动服务器mongod --path D:\data\db –port 20717, (3)第二个cmd再连接服务器mongo,出现>,连接成功! 则在该cmd窗口(第二个cmd)进行操作 1、M...

2019-07-13 08:12:00 383

转载 2.1-MongoDB(非关系型数据库)-简介

1、介绍: MongoDB的数据模型是面向文档的(类似于JSON的结构),简单的理解MongoDB数据库中存储的是各种各样的JSON(BSON 二进制的JSON) 2、MongoDB的安装 (1)默认安装路径C:\Program Files\MongoDB\Server\3.6\ ...

2019-07-13 07:57:00 264

转载 2-NoSQL(非关系型数据库)-入门概述

1、NoSQL是什么? NoSQL(Not only SQL,不仅仅是数据库),泛指非关系型数据库数据库,其数据存储不需要固定的模式,无需多余操作就可以横向扩展。 2、传统的RDBMS VS NOSQL 3、传统的非关系型数据库:Redis、Mem...

2019-07-13 07:40:00 536

转载 1.4-MySQL(关系型数据库)-用户登录

1、首先定义一个MysqlHelper.py 之后作为模块使用 #MySQL数据库的封装import pymysqlclass MysqlHelper(object): def __init__(self,host,port,user,passwd,db,charse...

2019-07-11 10:00:00 139

转载 1.3-MySQL(关系型数据库)-高级

1、事务 (1)首先什么是事务? 事务是应用程序中一系列严密的操作,所有操作必须成功完成,否则在每个操作中所作的所有更改都会被撤消。也就是事务具有原子性,一个事务中的一系列的操作要么全部成功,要么一个都不做。 事务的结束有两种,当事务中的所以步骤全部成功执行时,事务提交。如果其中一个...

2019-07-11 09:55:00 123

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除