自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

原创 头条爬取

# -*- coding:utf-8 -*- import requests from urllib import parse, request import requests import os def get_page(offset): params = { 'of...

2018-06-15 10:50:21

阅读数 175

评论数 0

原创 python日志2018.3.2

import requests from fake_useragent import UserAgent agent = UserAgent() num = 1 while num<20: url = 'http://www.kfzj.com.cn/browse/...

2018-06-15 10:49:23

阅读数 75

评论数 0

原创 布隆去重

费劲吧啦的爬到了数据,在满心欢喜之前还有一关要过,那就是去重是滴,一万条数据重复一千次就只有十条有效数据了不要问我这个咋算的,我不会告诉你,总之这个时候就需要另一个英雄登场了布隆!!!!好吧,不是他,是另一个布隆去重https://github.com/liyaopinner/BloomFilte...

2018-06-15 10:47:34

阅读数 219

评论数 0

原创 pyspider+MongoDB简单操作

#!/usr/bin/env python # -*- encoding: utf-8 -*- # Created on 2018-03-30 09:20:41 # Project: IvskyDemo from pyspider.libs.base_handler import * clas...

2018-06-15 10:22:06

阅读数 749

评论数 1

原创 scrapy-redis代码实例

# -*- coding: utf-8 -*- import scrapy from ..items import BookListItem,BookDetailItem # 引入scrapy_redis中的爬虫类 from scrapy_redis.spiders import RedisSpi...

2018-06-15 10:18:15

阅读数 233

评论数 0

原创 自己设置代理池

# -*- coding:utf-8 -*- import requests import pymysql from fake_useragent import UserAgent # Selector 引入 from scrapy.selector import Selector ''' 1.爬...

2018-06-15 10:12:08

阅读数 380

评论数 0

原创 scrapy框架写入json数据

# -*- coding: utf-8 -*- import scrapy from ..items import BookItem class NovelSpider(scrapy.Spider): name = 'novel' allowed_domains = ['read...

2018-06-15 10:01:41

阅读数 400

评论数 0

原创 scrapy爬取网站返回json数据处理

# -*- coding: utf-8 -*- import scrapy import json class NeihanSpider(scrapy.Spider): name = 'neihan' allowed_domains = ['neihanshequ.com'] ...

2018-06-15 09:57:14

阅读数 5622

评论数 0

原创 MongoDB基础操作和pyspider

关系型数据库和非关系数据库的区别:简单来说,关系型数据库可以支持多表联查,回滚等菲关系型数据库,一般来说存储在内存中,以键值对方式存在。查东西比较快from pymongo import MongoClient # 向mongodb中插入数据的类 class MongoWriter(object)...

2018-06-08 17:53:41

阅读数 270

评论数 0

原创 django-Redis缓存

http://django-redis-chs.readthedocs.io/zh_CN/latest/参考资料

2018-06-08 17:16:44

阅读数 61

评论数 0

原创 线程、进程和协程 概念

把子线程变成主线程中的守护线程,当主线程结束后,子线程也会随之结束,一旦主线程代码执行完毕,程序就结束了如果没有添加守护线程,当主线程执行完毕之后,会等待子线程中的任务执行完成之后,再退出程序def run(num): # 在子线程中执行这个任务 print('任务:{}'.for...

2018-06-08 16:57:53

阅读数 63

评论数 0

原创 GitHub相关命令

git init 初始化git仓库git status 查看工作的状态git add filename 将文件的修改或添加 添加到缓存区git commit -m "提交描述" 将缓存区的修改,提交到版本仓库git log 查看当前版本下的所有提交日志git r...

2018-06-07 18:25:55

阅读数 39

评论数 0

原创 微信公众号连接

首先第一步是验证,需要配置验证路由在urls中url(r'^wechat/',wechat)然后在views视图中走验证的逻辑然后这里有一个csrf_token问题。所以需要导入一个包from django.http import HttpResponse from django.views.de...

2018-06-05 17:57:34

阅读数 111

评论数 0

原创 Nginx负载均衡

Nginx相当于一个服务器,中间件,等等,总之介于客户端和服务器中间的。所以可以做的事很多,比如缓存或者分配。做负载均衡的话分为以下几步:1.在etc/nginx/conf.d下面新建一个nginx.conf文件upstream backend{ #ip_hash; server 127.0....

2018-06-05 16:29:40

阅读数 146

评论数 0

原创 scrapy中pipeline的异步存储

import pymysql '同步写入数据速度比较慢,而爬虫速度比较快,可能导致数据最后写入不到数据库中' ''' 1.引入twisted.enterprise.adbapi pymysql.cursors 2.在settings中配置数据库连接参数 3.创建pipeline,实现from_s...

2018-06-04 16:30:30

阅读数 1168

评论数 0

原创 scrapy中的settings设置

1.robots.txt协议ROBOTSTXT_OBEY = False需要激活并修改为FalseDOWNLOAD_DELAY = 0.5download_delay需要激活,并设置时间,降低爬取速度COOKIES_ENABLED = False禁用cookie追踪#SPIDER_MIDDLEWA...

2018-06-04 16:29:57

阅读数 528

评论数 0

原创 get请求和post请求

1.get请求的请求数据在URL中,post请求的请求数据在请求体中2.数据长度,get请求有长度限制,post请求的长度限制由服务器决定3.数据安全性,两者都不安全,但post相对安全一些4.应用场景不同,get请求一般用于访问页面,post请求一般用于上传数据response = reques...

2018-06-04 16:29:31

阅读数 50

评论数 0

原创 scrapy 中间件重写,与selenium结合爬取动态页面

from scrapy.http.response.html import HtmlResponse from selenium import webdriver from selenium.webdriver.chrome.options import Options #自定义中间件 class...

2018-06-04 16:29:16

阅读数 1288

评论数 0

原创 多线程操作

进程,负责维护一个应用程序的启动及运行,一个应用程序的启动至少要保持一个进程,这个进程负责给任务指定县城,通过负责分配内存空间,是一个管理者。一个进程中至少存在一个线程,被称为主线程,除了主线程,还有一些分线程,线程就是用于同时执行多个任务的。线程是执行任务的最小单位,进程和线程是由操作系统来决定...

2018-06-04 16:28:52

阅读数 96

评论数 0

原创 ubuntu操作

编辑文件vim 文件名insert 简写为i,插入操作esc 退出,然后q,不保存wq保存。一、常用指令1. ls     显示文件或目录2.    -l  列出文件详细信息l(list)3.    -a  列出当前目录下所有文件及目录,包括隐藏的a(all)4. mkdir  创建目录5.   ...

2018-06-04 16:27:59

阅读数 34

评论数 0

提示
确定要删除当前文章?
取消 删除