chuiai8582-CSDN博客

转载 6-爬取英语外教和中国老师招聘数据，并将其进行对比（薪资、学历、经验等）...

说明：项目主要爬取英语外教与中国老师招聘数据，并对数据进行比较分析。外教的招聘信息（JobLeadChina网站）：http://www.jobleadchina.com/job?job_industry=Teaching 中国老师的招聘信息（万行教师人才网站）：http://www...

2019-09-09 18:32:19 2124

转载 5-随机抓取易烊千玺置顶100万+转发微博的转发数据，并分析真假粉丝比例

说明：项目主要随机抓取易烊千玺100万+转发的微博置顶的100万条转发数据，并利用数据可视化的方式分析易烊千玺真假粉丝比例。分为：爬虫+数据分析一、爬虫【爬取易烊千玺100万条的转发数据】 #爬取微博的移动端#爬取链接：https://m.weibo.cn/api/stat...

2019-09-04 14:44:00 7583

转载 1-Python与机器学习入门

1.1机器学习绪论（1）什么是机器学习？机器学习是一种让计算机利用数据而非指令来进行各种工作的方法。机器学习是一个计算机程序，针对某个特定的任务，从经验中学习，且越做越好。机器学习在统计理论下的、比较深刻的本质：它追求的是合理的假设空间（Hypothesis Space）的选...

2019-08-30 13:24:00 612

转载 39-Scrapy-Redis构建-IT桔子分布式爬虫项目【网络学习】

分析： IT桔子（https://www.itjuzi.com/）是一个用于提供数据的网站。需要登录才能查看，并且20页之后的信息不能查看。解决需要登录才能查看的问题，带上cookie访问。参考：https://blog.csdn.net/sinat_35360663...

2019-08-30 08:58:00 447

转载 38-Scrapy-Redis构建-有缘网分布式爬虫项目【网络学习】

1、分析爬取有缘网上： 1-1、网址变化第一页网址：http://www.youyuan.com/find/beijing/mm18-25/advance-0-0-0-0-0-0/p1/ 第二页就是变为p2，第三页就是变为p3 【共有2206423人，大数据】 1-...

2019-08-30 08:46:00 272

转载 11.3-Scrapy-Redis分布式爬虫重点知识

Scrapy-Redis分布式爬虫构建的要点 1、master端将请求放到redis数据库中， slaver端（爬虫端）可以共享数据。 2、不同slaver端的机器1、机器2根据优先级获取redis数据库中的数据，保证不同slaver端的机器获取的请求不会重复，则分布式爬取的信息不会重复...

2019-08-30 08:13:00 183

转载 11.2-Scrapy-Redis官方案例演示【example-project文件夹】

官网网址：https://github.com/rmax/scrapy-redis 官网项目：example-project文件夹 1、对example-project文件夹解析【外面的文件】（1）docker-compose.yml redis: image: redi...

2019-08-29 17:32:00 566

转载 11.1-Scrapy-Redis分布式构架详解

要点： Scrapy-Redis不是框架，也不是一套可以单独运行的东西 Scrapy-Redis是一套基于Scrapy框架的组件，它提供了一堆可以支持分布式的组件，用来替换Scrapy原本的一些东西，然后让Scrapy具有分布式的功能。安装scrapy-redis=====...

2019-08-29 16:51:00 742

转载 2-Cookies池(CookiesPool)

1、文件夹中的分布 2、各个代码的内容以及作用（2-1）README.md # CookiesPool可扩展的Cookies池，目前对接了马蜂网站，[mafengwo.cn](http://www.mafengwo.cn/)，可自行扩展其他站点### 接口基本配置...

2019-08-28 17:01:00 657

转载 1-代理池(ProxyPool)-Redis+Flask维护动态代理池

1、分析（1）为什么使用代理池？许多网站上有专门的反爬虫措施，可能遇到封IP等问题互联网上公开了大量免费代理，利用好资源通过定时的检测维护同样可以得到多个可用代理（2）代理池的需求多站抓取异步检测定时筛选持续更新提供接口 ...

2019-08-28 16:46:00 1404

转载 37-Scrapy框架-知乎用户分析+存储到MongoDB-【递归爬虫】

分析目的：选定起始人：选定一位关注数或粉丝数较多的大V作为爬虫起始点获取粉丝和关注列表：通过知乎接口获得该大V的粉丝列表和关注列表获取列表用户信息：通过知乎接口获得列表中每位用户的详细信息获取每位用户的粉丝和关注：进一步对列表中的每一个用户，获取他们的粉丝和关注列表...

2019-08-28 15:49:00 248

转载 10.2-Scrapy抓取过程遇到的问题-代理IP的使用/Cookie的使用/js处理技巧

问题一：代理IP的使用 1、原理简述用户（A）在线代理服务器（B）目标网站（C）即：A向B发送浏览请求，B执行请求发送给C，C收到请求回应。 2、实现方法（实现代理IP）： Spider Middlewares / Download...

2019-08-27 14:03:00 304

转载 10.1-Scrapy使用技巧-多级页面爬取/图片抓取

技巧一：多级页面的抓取分析：爬取天猫商城中女装排名前60个商品的信息（此处：不涉及翻页）爬取网址 https://list.tmall.com/search_product.htm?q=女装爬取信息：商品情况（价格、名称、url）店铺情况（名称、url、公司地址...

2019-08-27 13:19:00 1143

转载 36-Scrapy框架-西刺网代理爬取+存储到MySQL

目的：爬取西刺网https://www.xicidaili.com/nn下3799页的代理相关信息将爬取的信息存储到mysql数据库采用基于spider类的Scrapy框架爬虫，所以在构建爬取页面时，需要自己手动设置下一页。【虽然该方法比较笨，但是能够保证不出错】 ...

2019-08-27 10:15:00 221

转载 35-Scrapy框架-生物谷登录+爬取CFDA信息

目的：登录生物谷网站 http://login.bioon.com/login，实际post请求的网站为：http://login.bioon.com/login/do_login 访问生物谷中的CFDA信息网站http://news.bioon.com/cfda，获取该页面下每...

2019-08-26 17:58:00 367

转载 9.5-Scrapy框架【进阶】-settings.py文件详解

settings.py文件中常用的配置如下：（1）BOT_NAME 爬虫名默认：scrapybot 当使用stratproject命名创建项目时，其他也被自动赋值（2）CONCURRENT_ITEMS 同时处理item的最大值默认：100 It...

2019-08-15 18:05:00 343

转载 9.4-Scrapy框架爬虫【进阶】-Downloader Middleware用法

下载器中间件(Downloader Middleware) 其介于Scrapy的request/response处理的钩子框架。是用于全局修改Scrapy request和response的一个轻量、底层的系统。 1、激活下载器中间件要激活下载器中间件组件，将其加入到...

2019-08-15 17:44:00 331

转载 9.3-Scrapy框架爬虫【进阶】-Item Pipelines用法

Scrapy提供了Item类。 Item对象是种简单的容器（类似于字典（dict，键值对）），保存爬取到得数据。 1、声明Item Item使用简单的class定义语法和Filed对象来申明，例如： from scrapy import Field,Itemclass Produ...

2019-08-15 16:39:00 510

转载 9.2-Scrapy框架爬虫【进阶】-spiders用法

1、爬虫（Spiders） Spider类定义了如何爬取某个（或某些）网站。包括爬取的动作（例：是否跟进链接）以及如何从网页的内容中提取结构化数据（爬取item）。 ===>则Spider就是定义的爬取动作及分析某个网页。对于Spider，爬取循环做以下...

2019-08-15 15:08:00 296

转载 34-Scrapy框架-新浪网分类资讯-【三级信息：大标题/小标题/内容】

目的：爬取新浪网站导航（http://news.sina.com.cn/guide/）难点：爬取三级信息：大标题-->小标题-->内容信息 1、cmd中的操作 C:\Users\Administrator\Desktop>scrapy startproject sin...

2019-08-15 11:18:00 232

转载 33-Scrapy框架-豆瓣电影top250-【存储到mongodb/代理验证】

目的：爬取豆瓣电影（https://movie.douban.com/top250），并将信息（电影标题、信息、评分、简介）保存到本地数据库分析1：针对每页（比如首页：https://movie.douban.com/top250?start=0）【start以25的间隔增加】 ...

2019-08-15 09:24:00 706

转载 9.1-Scrapy爬虫框架【进阶】-防止反爬+模拟登陆

一、通常防止爬虫被反主要有以下几个策略动态设置User-Agent（随机切换User-Agent，模拟不同用户的浏览器信息）禁用cookies（也就是不启动Cookies Middleware，不向server发送cookies，有些网站通过cookie的使用发现爬虫行...

2019-08-14 16:57:00 466

转载 32-CrawlSpider类爬虫与Spider类爬虫比较-【都是基于Scrapy框架】

任务：爬取“阳光热线问政平台的每个投诉信息（标题、编号、内容、链接）” 要点：涉及翻页比较：这两种方法都可以完成任务方法一使用CrawlSpider类，其中涉及Rule来解析网页中的链接，比较简单，但是可能会出现“假链接” 方法二使用Spider类，需要自己手动...

2019-08-14 15:26:00 289

转载 8-CrawlSpider类-【Scrapy框架的进阶】

说明： CrawlSpider类===>是spider的子类 CrawlSpider增加了2个成员 rules 定义一些规则（链接怎么追踪；使用哪一个parse函数解析此链接） parse_start_url(response) 解析初始url的响应一、简介...

2019-08-14 13:34:00 258

转载 31-scrapy框架爬虫【简单应用】-3个例子

说明：通过下述3个例子，实现对scrapy框架的简单认识以及使用。难度说明：例1<<例2<<例3 【例2和例3涉及翻页】【例3涉及到图片...

2019-08-14 09:45:00 370

转载 30-多线程爬虫-爬取糗事百科

说明：爬取糗事百科 'https://www.qiushibaike.com/8hr/page/{}/'.format(page_num) 爬取信息：题目、好笑、评论、转发、发表人 1、单进程版本的糗事百科爬虫（常规的爬虫） import requ...

2019-08-13 17:31:00 341

转载 7.2-urllib库的高级使用

urllib库中Handler处理器和自定义Opener 基本的urllib.request.urlopen()方法不支持代理、cookie等其他的HTTP/HTTPS高级功能，则需要：使用相关的Handler处理器，来创建特定功能的处理器对象然后通过urllib.requ...

2019-08-13 14:19:00 140

转载 7.1-urllib库的基本使用

说明： urllib2是python2.7自带的模块 urllib2在python3.x中被修改为urllib.request 1、urllib.request.urlopen()详解（1）介绍 urllib.request.urlopen()函数用于实现对目标url的...

2019-08-13 10:50:00 210

转载 3.7-Redis（非关系型数据库）-与python交互

1、redis与Python交互的简单例子 from redis import *r=StrictRedis(host='localhost',port=6379)#写pipe=r.pipeline()pipe.set('py1','hello')pipe.set(...

2019-07-13 10:15:00 167

转载 3.6-Redis（非关系型数据库）-复制（Master Slave）

1、复制是什么？即主从复制，主机数据更新后根据配置和策略，自动同步到备机的master/slaver机制，master以写为主，slave以读为主。其能够进行：读写分离+容灾恢复 2、怎么使用复制？（1）配从（库）不配主（库）（2）从库配置：slaveof 主库IP 主库...

2019-07-13 09:58:00 214

转载 3.5-Redis（非关系型数据库）-事务

1、redis中的事务是什么？ Redis 事务可以一次执行多个命令，并且带有以下三个重要的保证：批量操作在发送 EXEC 命令前被放入队列缓存。收到 EXEC 命令后进入事务执行，事务中任意命令执行失败，其余的命令依然被执行。在事务执行过程，其他客户端提交的命令请...

2019-07-13 09:48:00 533

转载 3.4-Redis（非关系型数据库）-持久化RDB和AOF

Redis的持久化：RDB（Redis DataBase）、AOF（Append Only File）一、Redis持久化之RDB（Redis DataBase） 1、RDB是什么？在指定的时间间隔内将内存的数据集快照写入磁盘，也就是通常讲的snapshot快照，它恢复时...

2019-07-13 09:12:00 192

转载 3.3-redis（非关系型数据库）-解析配置文件redisconf

Redis解析配置文件（redis.config）：【包含：units单位+INCLUDES包含+GENERAL通用+SANPAHOTTING快照+REPLICATION复制+SECURITY安全+LIMITS限制+APPEND ONLY MODE 追加+常见配置redis.conf介绍】 ...

2019-07-13 08:55:00 134

转载 3.2-redis（非关系型数据库）-数据类型

1、Redis五大数据类型： string（字符串）、hash（哈希，类似于Java的map）、list（列表）、set（集合）、zset（有序集合）（1）String字符串 String是Redis最基本的类型，一个key对应一个value，其中value最多为512M ...

2019-07-13 08:38:00 196

转载 3.1-redis（非关系型数据库）-简介

1、Redis是什么？（1）Redis：REmote DIctionary Server（远程字典服务器）（2）开源免费、用C语言编写；是一个高性能的（key/value）分布式内存数据库，基于内存运行，并支持持久化的NOSQL数据库（3）Redis与其他key-value缓存产...

2019-07-13 08:28:00 130

转载 2.2-MongoDB（非关系型数据库）-增删改查

开启MongoDB基础操作：（1）首先打开两个cmd，（2）第一个cmd先启动服务器mongod --path D:\data\db –port 20717，（3）第二个cmd再连接服务器mongo，出现>，连接成功！则在该cmd窗口（第二个cmd）进行操作 1、M...

2019-07-13 08:12:00 449

转载 2.1-MongoDB（非关系型数据库）-简介

1、介绍： MongoDB的数据模型是面向文档的（类似于JSON的结构），简单的理解MongoDB数据库中存储的是各种各样的JSON（BSON 二进制的JSON） 2、MongoDB的安装（1）默认安装路径C:\Program Files\MongoDB\Server\3.6\ ...

2019-07-13 07:57:00 336

转载 2-NoSQL（非关系型数据库）-入门概述

1、NoSQL是什么？ NoSQL（Not only SQL，不仅仅是数据库），泛指非关系型数据库数据库，其数据存储不需要固定的模式，无需多余操作就可以横向扩展。 2、传统的RDBMS VS NOSQL 3、传统的非关系型数据库：Redis、Mem...

2019-07-13 07:40:00 660

转载 1.4-MySQL（关系型数据库）-用户登录

1、首先定义一个MysqlHelper.py 之后作为模块使用 #MySQL数据库的封装import pymysqlclass MysqlHelper(object): def __init__(self,host,port,user,passwd,db,charse...

2019-07-11 10:00:00 186

转载 1.3-MySQL（关系型数据库）-高级

1、事务（1）首先什么是事务？事务是应用程序中一系列严密的操作，所有操作必须成功完成，否则在每个操作中所作的所有更改都会被撤消。也就是事务具有原子性，一个事务中的一系列的操作要么全部成功，要么一个都不做。事务的结束有两种，当事务中的所以步骤全部成功执行时，事务提交。如果其中一个...

2019-07-11 09:55:00 173

空空如也

空空如也