自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(24)
  • 收藏
  • 关注

原创 Matplotlib画各种图

matplotlib(条形图)看本文前,请看matlplotlib使用教程https://blog.csdn.net/kun1280437633/article/details/80370622,有基础请忽略一、简单垂直条形图案例一:直辖市GDP水平中国的四个直辖市分别为北京市、上海市、天津市和重庆市,其2017年上半年的GDP分别为12406.8亿、13908.57亿、9...

2018-06-28 13:24:54 23053 6

原创 pandas补充

版权声明:本文为博主原创文章,未经博主允许不得转载。https://blog.csdn.net/kun1280437633/article/details/80831604看本文前,请看pandas的使用教程https://blog.csdn.net/kun1280437633/article/details/80369390,有基础请忽略1 读取数据我们利用pandas的rea...

2018-06-27 17:08:31 779

原创 付费代理池的使用

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/kun1280437633/article/details/80830033相对免费代理来说,付费代理的稳定性更高。本节将介绍爬虫付费代理的相关使用过程。一、付费代理分类付费代理分为两类: 一类提供接口获取海量代理,按天或者按量收费,如讯代理; 一类搭建了代理隧道,直接设置...

2018-06-27 15:37:29 5374 2

原创 用Flask+Aiohttp+Redis维护动态代理池

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/kun1280437633/article/details/80829848在网上有大量公开的免费代理,或者我们也可以购买付费的代理IP,但是代理不论是免费的还是付费的,都不能保证都是可用的,因为可能此IP被其他人使用来爬取同样的目标站点而被封禁,或者代理服务器突然发生故障或网络繁忙。一旦我们选用...

2018-06-27 15:26:53 3146 2

原创 tensorflow一些函数

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/kun1280437633/article/details/80821791tensorflow一些函数:1、tf.ones(shape,type=tf.float32,name=None)     tf.ones([2, 3], int32) ==> [[1, 1, 1], [1,...

2018-06-26 22:19:37 277

原创 CNN卷积神经网络原理讲解+图片识别应用(附源码)

一、机器如何识图先给大家出个脑筋急转弯:在白纸上画出一个大熊猫,一共需要几种颜色的画笔?——大家应该都知道,只需要一种黑色的画笔,只需要将大熊猫黑色的地方涂上黑色,一个大熊猫的图像就可以展现出来。我们画大熊猫的方式,其实和妈妈们的十字绣很接近——在给定的格子里,绣上不同的颜色,最后就可以展现出一幅特定的“图片”。而机器识图的方式正好和绣十字绣的方式相反,现在有了一幅图片,机器通过识别图片中...

2018-06-26 16:35:50 150258 80

原创 链表

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/kun1280437633/article/details/80787863单链表demo:class Node(object):    """链表中的节点"""    def __init__(self, item):        # item 记录当前节点的内容        s...

2018-06-23 23:01:02 224

原创 数据结构

数据结构复习的方法应该是:审题->思考->表达->码字。首先,审题很重要无需废话,拿到题目,我们需要认真思考一番。然后就需要组织语言,把自己所想表达清楚。别小看这一个步骤,组织语言表达清楚很重要。一些公司都是先让说思路,再让写代码的,甚至是只说思路。所以,在复习的时候,把每道题的思路想清楚,说明白很重要。最后,我们再将自己的想法写成代码。链表:1、找出单链表的倒数第K个元素(仅允...

2018-06-23 10:54:50 228

原创 tensorflow之单隐层的神经网络

tensorflow提供了大量的矩阵运算函数,可以利用这些函数和tensorflow自身的机制实现神经网络,这里我们实现了一个单隐层的神经网络。1.首先定义用于训练神经网络的训练数据集xdata=np.linspace(-1,1,300)[:,np.newaxis]noise=np.random.normal(0,0.05,xdata.shape)ydata=np.square(xdata)-...

2018-06-22 20:34:43 1353

原创 shell脚本三

版权声明:本文为博主原创文章,未经博主允许不得转载。https://blog.csdn.net/kun1280437633/article/details/80767750建议先观看shell脚本一,链接https://blog.csdn.net/kun1280437633/article/details/80727703建议先观看shell脚本二,链接https://blog.cs...

2018-06-21 23:36:25 194

原创 shell脚本二

建议先观看shell脚本一,链接https://blog.csdn.net/kun1280437633/article/details/80727703控制语句(重点)if语句#!/bin/bash#if [ "$1" == "nan" ]read -p "请输入姓别:" nameif [ "${name}" == "nan" ]then echo "输入的是男"fi#...

2018-06-20 00:29:26 195

原创 shell脚本一

版权声明:本文为博主原创文章,未经博主允许不得转载。https://blog.csdn.net/kun1280437633/article/details/80727703shell手工部署项目自动化部署项目1、shell简介什么是shellshell是一个命令解释器,是一个程序/bin/bash,解释linux的命令shell交互式命令使用打开终端,一行行敲命令shell脚本...

2018-06-18 23:47:20 293

原创 jieba分词器

运行环境和模块安装运行环境:Python 3.X首先:cmd下 pip install jieba建议使用 pip3 install jieba (特别是那些同时装了Python2和3的朋友,以后装模块可以用pip2和pip3区分)安装完成后结巴分词模式结巴分词模块有三种分词模式:1.全模式2.精确模式3.搜索引擎模式全模式:把句子中所有可以成词的词语都扫描出来,速度非常快,但是不能解决歧义。  ...

2018-06-17 15:53:19 2994

原创 关于分布式爬虫思考

爬虫无非两样东西网站的破解爬取的效率由于我很懒,爬虫就随便写写怼上服务器上跑就行了,从来不考虑效率的问题,所以用到分布式的情况很少。不过也有用到的时候,之前爬个youtube,除了爬取视频信息又要下载视频又要上传视频,还要下载缩略图上传缩略图。如果只用一个爬虫去做的话,其实也没什么,就是会失业而已。然后我就开始尝试去做分布式。我从网上看到的大部分分布式教程,都是用redis来储存任务队列,然后开启...

2018-06-15 16:24:48 1428

原创 强大的异步爬虫 with aiohttp

看到现在网络上大多讲的都是requests、scrapy,却没有说到爬虫中的神器:aiohttpaiohttp 介绍aiohttp是什么,官网上有这样一句话介绍:Async HTTP client/server for asyncio and Python,翻译过来就是 asyncio和Python的异步HTTP客户端/服务器主要特点是:支持客户端和HTTP服务器。无需使用Callback Hel...

2018-06-13 21:20:28 7101 3

原创 TensorFlow验证码识别

本节我们来用 TensorFlow 来实现一个深度学习模型,用来实现验证码识别的过程,这里我们识别的验证码是图形验证码,首先我们会用标注好的数据来训练一个模型,然后再用模型来实现这个验证码的识别。验证码首先我们来看下验证码是怎样的,这里我们使用 Python 的 captcha 库来生成即可,这个库默认是没有安装的,所以这里我们需要先安装这个库,另外我们还需要安装 pillow 库,使用 pip3...

2018-06-12 21:41:31 1989

原创 Python操作MongoDB

MongoDB是由C++语言编写的非关系型数据库,是一个基于分布式文件存储的开源数据库系统,其内容存储形式类似JSON对象,它的字段值可以包含其他文档、数组及文档数组,非常灵活。在这一节中,我们就来看看Python 3下MongoDB的存储操作。1. 准备工作在开始之前,请确保已经安装好了MongoDB并启动了其服务,并且安装好了Python的PyMongo库。2. 连接MongoDB连接Mong...

2018-06-11 20:43:55 496

原创 爬虫之拉菲红酒评价

# coding:utf-8import reimport requests'''    分析:    1. 爬取流程    # 法国拉菲酒的评价    url:https://rate.tmall.com/list_detail_rate.htm?itemId=566515357894&spuId=946656746&sellerId=2807304908&order=3...

2018-06-11 17:30:50 527

原创 Scrapy爬虫去重效率优化之Bloom Filter的算法的对接

首先回顾一下Scrapy-Redis的去重机制。Scrapy-Redis将Request的指纹存储到了Redis集合中,每个指纹的长度为40,例如27adcc2e8979cdee0c9cecbbe8bf8ff51edefb61就是一个指纹,它的每一位都是16进制数。我们计算一下用这种方式耗费的存储空间。每个十六进制数占用4 b,1个指纹用40个十六进制数表示,占用空间为20 B,1万个指纹即占用空...

2018-06-10 19:39:51 4287 1

原创 xpath和正则如何匹配后代所有的内容

demo:# coding:utf-8import refrom lxml import etreestr1='''<a style="font-weight: bold" par="ssidkey=y&ss=201&ff=03&sg=61dddada6f3e4a62b688a786dac0a17f&so=1" href="ht...

2018-06-10 18:46:17 1296

原创 python编码

1、字符集asciiISO-8859-1 通常叫 做Latin-1,向下兼容ASCII,此字符集支持部分于欧洲使用的语言GB2312/GBK 这就是汉字的国标码,专门用来表示汉字,是双字节编码,而英文字母和iso8859-1一致(兼容iso8859-1编码)。其中gbk编码能够用来同时表示繁体字和简体字,而gb2312只能表示简体字,gbk是兼容gb2312编码的。unicode 万国码2、Uni...

2018-06-10 12:44:23 243

原创 ASCII、unicode和UTF-8的起源

很久很久以前,有一群人,他们决定用8个可以开合的晶体管来组合成不同的状态,以表示世界上的万物。他们看到8个开关状态是好的,于是他们把这称为"字节"。再后来,他们又做了一些可以处理这些字节的机器,机器开动了,可以用字节来组合出很多状态,状态开始变来变去。他们看到这样是好的,于是它们就这机器称为"计算机"。开始计算机只在美国用。八位的字节一共可以组合出256(2的8次方)种不同的状态。他们把其中的编号...

2018-06-10 11:22:32 729

原创 爬虫之有道翻译(逆向)

#!/usr/bin/python# -*- coding: utf-8 -*-import requestsimport hashlibimport timefrom pprint import pprinturl = "http://fanyi.youdao.com/translate_o"params = {    "smartresult": "dict",    "smartresult...

2018-06-09 23:21:20 813

原创 爬虫定时任务crontab

1. crontab的安装和介绍2. crontab在爬虫中的使用2.1 使用流程把爬虫启动命令写入sh文件给sh脚本添加可执行权限把sh添加到crontab脚本正2.2 myspier.sh例子先把要执行的命令写入脚本cd `dirname $0` || exit 1python ./main.py >> run.log 2>&1其中>>表示重定向,把p...

2018-06-07 22:38:06 1018

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除