自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 资源 (33)
  • 收藏
  • 关注

原创 笔记

本文主要利用tesseract-ocr对中文进行识别,所做的工作就是对图片进行分割处理,把需要的部分利用tesseract-ocr去识别。主要识别昵称,地区,个性签名。 大体的思路就是利用每一区域间的灰度变化把图像分块,确定具体的某一块代表什么。昵称里含有性别标志,我们可以从右往左找直到遇到黑色区域,由于性别标志的大小固定,我们就可以从第一个遇到黑色区域的位置开始裁掉性别标志。由于不同手机的分辨

2017-05-21 21:28:20 316

原创 基于pytesseract的验证码识别

验证码区分人和计算机的图灵测试,现在的所有带有登录功能的网页都设有验证码,这样能一定程度的达到信息安全目的。 验证码识别是光学字符识别(OCR)的一种,ocr技术在我们生活中很多地方都有用到,比如车牌识别,省份证识别,手写字符识别等,给我们的生活带来很多便利。所以很多互联网公司都在研究这一技术,大家接触比较多的就是谷歌的tesseract-ocr,它是一款免费的开源软件,支持多种语言。当然也有

2017-05-21 18:33:59 918

原创 python 爬取12306验证码

一个简单的验证码爬取程序本文介绍了在Python2.7环境下爬取网站验证码:思路就是获取验证码对应的url,然后发起requst请求,读取该URL对应的内容,然后写入到一个本地文件,实现一个验证码的保存。大量下载可以把以上程序写入一个死循环代码实现部分:import sslimport urllib2i=1import timewhile(1): #不加

2017-05-21 17:59:19 4952 7

原创 keras下基于mnist数据集的cnn

keras是一个支持theano和thsorflow为后端的深度学习框架,本实例以theano为后端,实现一个简单的cnn网络,通过这个我们也可以体会到cnn的强大之处, 首先要安装keras1.02,python2.7,下载mnist数据集于本地(由于在线下载一直失败)。 主程序如下:import numpy as npnp.random.seed(1337) # for reproduci

2017-05-15 21:10:37 907

原创 爬取百度贴吧照片

基于python的百度贴吧爬虫# -*- coding: utf-8 -*-from bs4 import BeautifulSoupimport urllib2import urllibimport reclass imgTest: def __init__(self, baseUrl, seeLZ): self.baseUrl = baseUrl

2017-05-15 14:09:42 270

原创 python生成验证码

生成验证码利用python自动生成验证码生成过程#encoding=utf-8import random# import matplotlib.pyplot as pltimport stringimport sysimport mathfrom PIL import Image,ImageDraw,ImageFont,ImageFilterfilename="C:/Users/123

2017-05-15 10:24:29 7802 2

原创 img2html 实例

img2html实例img2html 是在知乎上看到的一个关于图像处理的开源包,是一个基于Python的程序,暂时不知道有什么用,不过看着挺好玩的,通过引用这这包实现一个小程序,和大家分享一下。 img2html 实现了把一张图片转换为html文件(也可以理解为转换为一个txt文档),但是文档依然可以看出是照片,让我想起一些个性的海报是不是这样做的一张周董的照片,是不是很酷

2017-05-14 23:26:30 1749 3

原创 k-近邻

k-近邻本文主要讲述K-近邻算法的原理,及其代码实现。结合数据集对K-近邻算法进行应用。K-近邻算法的原理代码实现应用总结1. K-近邻算法的原理K-近邻((k-nearest neighbor)算法是一种非监督式算法,用于对样本进行分类。分类的依据就是距离哪一类样本更近就分到哪一类,和我们成语中的“物以类聚,人以群分“表达的是相同的道理,又比如我们化学中的”相似

2017-05-01 21:56:39 263 2

windows 下python3.7 geopandas.zip

windows7 python3.7 亲测可用

2021-04-14

(shang硅gu)Spring Boot核心技术-笔记-pdf版.pdf

sprintboot 课程笔记,87页和课程同步 sprintboot 课程笔记,87页和课程同步 sprintboot 课程笔记,87页和课程同步

2020-08-18

巨杉分布式数据库特训营培训文档.rar

D1 分布式技术基础 第1讲 SequoiaDB 技术简介 第2讲 SequoiaDB 安装部署 第3讲 SequoiaDB 数据库实例 D201-核心交易业务 D202-数据中台 第4讲 SequoiaDB 高可用与缩扩容 D203-内容管理 D204-实时数据服务 第5讲 SequoiaDB 数据迁移与备份恢复 第6讲 SequoiaDB 集群监控管理

2020-04-14

pro-git(中文第二版)

pro-git(中文第二版)高清,一共496页。

2019-05-05

100个微信小程序

github上的开源微信小程序合集,初学者的福音。免去自己一个一个下载。

2019-02-15

韩顺平oracle课程 word版笔记,ppt

原课程笔记,100多页,ppt200多页,很详细,配合视频学习很方便

2019-01-04

20套工作总结汇报ppt模板

20套工作总结汇报ppt模板,没有太花哨,适合正式场合的工作报告

2018-12-25

pos机返回码数据字典

pos机返回码数据字典 excle版本

2018-12-25

control-m客户端

control-m客户端

2018-12-08

control-m使用手册

介绍control的架构说明,EM,AGENT.SEVER.各个部分的功能作用。从作业的管理,包括登录、修改、查询、权限设置。包括普通作业的定制和特殊作业的定制详细过程。最后是作业的监控管理。一共53页,公司内部培训资料。

2018-12-08

xshell5.0000

亲测好用,之前的需要升级,升级后不能用了,这个重新找的,亲测好用,不要升级

2018-08-21

SQL必知必会 第四版

下载的10分的资源,高清非扫描,2分即可下载

2018-08-21

Everything 最新版

非常快,比windows自带的文件查找工具快很多,软件非常小,只有1.4M,给人相见恨晚的感觉。

2018-07-09

计算机是怎样跑起来的

计算机是怎样跑起来的 计算机是怎样跑起来的 1.1 计算机的三个根本性基础 3 ● 1.2 输入、运算、输出是硬件的基础 4 ● 1.3 软件是指令和数据的集合 6 ● 1.4 对计算机来说什么都是数字 8 ● 1.5 只要理解了三大原则,即使遇到难懂的最新技术,也能 轻松应对 9 ● 1.6 为了贴近人类,计算机在不断地进化 10 ● 1.7 稍微预习一下第2 章 13 试着制造一台计算机吧 15 ● 2.1 制作微型计算机所必需的元件 17 ● 2.2 电路图的读法 21 ● 2.3 连接电源、数据和地址总线 23 ● 2.4 连接I/O 26 ● 2.5 连接时钟信号 27 ● 2.6 连接用于区分读写对象是内存还是I/O 的引脚 28 ● 2.7 连接剩余的控制引脚 29 ● 2.8 连接外部设备,通过DMA 输入程序 34 ● 2.9 连接用于输入输出的外部设备 35 ● 2.10 输入测试程序并进行调试 36 体验一次手工汇编 39 ● 3.1 从程序员的角度看硬件 41 ● 3.2 机器语言和汇编语言 44 2 COLUMN ● 3.3 Z80 CPU 的寄存器结构 49 ● 3.4 追踪程序的运行过程 52 ● 3.5 尝试手工汇编 54 ● 3.6 尝试估算程序的执行时间 57 程序像河水一样流动着 59 ● 4.1 程序的流程分为三种 61 ● 4.2 用流程图表示程序的流程 65 ● 4.3 表示循环程序块的“帽子”和“短裤” 68 ● 4.4 结构化程序设计 72 ● 4.5 画流程图来思考算法 75 ● 4.6 特殊的程序流程——中断处理 77 ● 4.7 特殊的程序流程——事件驱动 78 来自企业培训现场 电阻颜色代码的谐音助记口诀 82 与算法成为好朋友的七个要点 85 ● 5.1 算法是程序设计的“熟语” 87 ● 5.2 要点1 :算法中解决问题的步骤是明确且有限的 88 ● 5.3 要点2 :计算机不靠直觉而是机械地解决问题 89 ● 5.4 要点3 :了解并应用典型算法 91 ● 5.5 要点4 :利用计算机的处理速度 92 ● 5.6 要点5 :使用编程技巧提升程序执行速度 95 ● 5.7 要点6 :找出数字间的规律 99 ● 5.8 要点7 :先在纸上考虑算法 101 第 章4 第 章5 3 与数据结构成为好朋友的七个要点 103 ● 6.1 要点1 :了解内存和变量的关系 105 ● 6.2 要点2 :了解作为数据结构基础的数组 108 ● 6.3  要点3 :了解数组的应用——作为典型算法的数据结构 109 ● 6.4 要点4 :了解并掌握典型数据结构的类型和概念 111 ● 6.5 要点5 :了解栈和队列的实现方法 114 ● 6.6 要点6 :了解结构体的组成 118 ● 6.7 要点7 :了解链表和二叉树的实现方法 120 成为会使用面向对象编程的程序员吧 125 ● 7.1 面向对象编程 127 ● 7.2 对OOP 的多种理解方法 128 ● 7.3  观点1 :面向对象编程通过把组件拼装到一起构建程序 130 ● 7.4  观点2 :面向对象编程能够提升程序的开发效率和可维护性 132 ● 7.5  观点3 :面向对象编程是适用于大型程序的开发方法 134 ● 7.6 观点4 :面向对象编程就是在为现实世界建模 134 ● 7.7 观点5 :面向对象编程可以借助UML 设计程序 135 ● 7.8  观点6 :面向对象编程通过在对象间传递消息驱动程序 137 ● 7.9  观点7 :在面向对象编程中使用继承、封装和多态 140 ● 7.10 类和对象的区别 141 ● 7.11 类有三种使用方法 143 ● 7.12 在Java和.NET 中有关OOP 的知识不能少 145 一用就会的数据库 147 ● 8.1 数据库是数据的基地 149 ● 8.2 数据文件、DBMS 和数据库应用程序 151 ● 8.3 设计数据库 154 ● 8.4 通过拆表和整理数据实现规范化 157 第 章6 第 章7 第 章8 4 COLUMN ● 8.5 用主键和外键在表间建立关系 159 ● 8.6 索引能够提升数据的检索速度 162 ● 8.7 设计用户界面 164 ● 8.8 向DBMS发送CRUD操作的SQL 语句 165 ● 8.9 使用数据对象向DBMS发送SQL 语句 167 ● 8.10 事务控制也可以交给DBMS 处理 170 来自企业培训现场 培训新人编程时推荐使用什么编程语言? 172 通过七个简单的实验理解TCP/IP 网络 175 ● 9.1 实验环境 177 ● 9.2 实验1 :查看网卡的MAC 地址 179 ● 9.3 实验2 :查看计算机的IP 地址 182 ● 9.4 实验3 :了解DHCP 服务器的作用 184 ● 9.5 实验4 :路由器是数据传输过程中的指路人 186 ● 9.6 实验5 :查看路由器的路由过程 188 ● 9.7 实验6 :DNS服务器可以把主机名解析成IP地址 190 ● 9.8 实验7 :查看IP 地址和MAC 地址的对应关系 192 ● 9.9 TCP 的作用及TCP/IP 网络的层级模型 193 试着加密数据吧 197 ● 10.1 先来明确一下什么是加密 199 ● 10.2 错开字符编码的加密方式 201 ● 10.3 密钥越长,解密越困难 205 ● 10.4 适用于互联网的公开密钥加密技术 208 ● 10.5 数字签名可以证明数据的发送者是谁 XML 究竟是什么 215 ● 11.1 XML 是标记语言 217 ● 11.2 XML 是可扩展的语言 219 ● 11.3 XML 是元语言 220 ● 11.4 XML 可以为信息赋予意义 224 ● 11.5 XML 是通用的数据交换格式 227 ● 11.6 可以为XML 标签设定命名空间 230 ● 11.7 可以严格地定义XML 的文档结构 232 ● 11.8 用于解析XML 的组件 233 ● 11.9 XML 可用于各种各样的领域 235 SE 负责监管计算机系统的构建 239 ● 12.1 SE 是自始至终参与系统开发过程的工程师 241 ● 12.2 SE 未必担任过程序员 243 ● 12.3 系统开发过程的规范 243 ● 12.4 各个阶段的工作内容及文档 245 ● 12.5 所谓设计,就是拆解 247 ● 12.6 面向对象法简化了系统维护工作 249 ● 12.7 技术能力和沟通能力 250 ● 12.8 IT 不等于引进计算机 252 ● 12.9 计算机系统的成功与失败 253 ● 12.10 大幅提升设备利用率的多机备份 255

2018-04-11

Python网络数据采集

pdf版,文字可复制,不是扫描版,222页。 译者序 ix 前言 xi 第一部分 创建爬虫 第1章 初见网络爬虫 2 1.1 网络连接 2 1.2 BeautifulSoup简介 4 1.2.1 安装BeautifulSoup 5 1.2.2 运行BeautifulSoup 7 1.2.3 可靠的网络连接 8 第2章 复杂HTML解析 11 2.1 不是一直都要用锤子 11 2.2 再端一碗BeautifulSoup 12 2.2.1 BeautifulSoup的find()和findAll() 13 2.2.2 其他BeautifulSoup对象 15 2.2.3 导航树 16 2.3 正则表达式 19 2.4 正则表达式和BeautifulSoup 23 2.5 获取属性 24 2.6 Lambda表达式 24 2.7 超越BeautifulSoup 25 第3 章 开始采集 26 3.1 遍历单个域名 26 3.2 采集整个网站 30 3.3 通过互联网采集 34 3.4 用Scrapy 采集 38 第4 章 使用API 42 4.1 API 概述 43 4.2 API 通用规则 43 4.2.1 方法 44 4.2.2 验证 44 4.3 服务 器响应 45 4.4 Echo Nest 46 4.5 Twitter API 48 4.5.1 开始 48 4.5.2 几个示例 50 4.6 Google API 52 4.6.1 开始 52 4.6.2 几个示例 53 4.7 解析JSON 数据 55 4.8 回到主题 56 4.9 再说一点API 60 第5 章 存储数据 61 5.1 媒体文件 61 5.2 把数据存储到CSV 64 5.3 MySQL 65 5.3.1 安装MySQL 66 5.3.2 基本命令 68 5.3.3 与Python 整合 71 5.3.4 数据库技术与最佳实践 74 5.3.5 MySQL 里的“六度空间游戏” 75 5.4 Email 77 第6 章 读取文档 80 6.1 文档编码 80 6.2 纯文本 81 6.3 CSV 85 6.4 PDF 87 6.5 微软Word 和.docx 88 第二部分 高级数据采集 第7 章 数据清洗 94 7.1 编写代码清洗数据 94 7.2 数据存储后再清洗 98 第8 章 自然语言处理 103 8.1 概括数据 104 8.2 马尔可夫模型 106 8.3 自然语言工具包 112 8.3.1 安装与设置 112 8.3.2 用NLTK 做统计分析 113 8.3.3 用NLTK 做词性分析 115 8.4 其他资源 119 第9 章 穿越网页表单与登录窗口进行采集 120 9.1 Python Requests 库 120 9.2 提交一个基本表单 121 9.3 单选按钮、复选框和其他输入 123 9.4 提交文件和图像 124 9.5 处理登录和cookie 125 9.6 其他表单问题 127 第10 章 采集JavaScript 128 10.1 JavaScript 简介 128 10.2 Ajax 和动态HTML 131 10.3 处理重定向 137 第11 章 图像识别与文字处理 139 11.1 OCR 库概述 140 11.1.1 Pillow 140 11.1.2 Tesseract 140 11.1.3 NumPy 141 11.2 处理格式规范的文字 142 11.3 读取验证码与训练Tesseract 146 11.4 获取验证码提交答案 151 第12 章 避开采集陷阱 154 12.1 道德规范 154 12.2 让网络机器人看起来像人类用户 155 12.2.1 修改请求头 155 12.2.2 处理cookie 157 12.2.3 时间就是一切 159 12.3 常见表单安全措施 159 12.3.1 隐含输入字段值 159 12.3.2 避免蜜罐 160 12.4 问题检查表 162 第13 章 用爬虫测试网站 164 13.1 测试简介 164 13.2 Python 单元测试 165 13.3 Selenium 单元测试 168 13.4 Python 单元测试与Selenium 单元测试的选择 172 第14 章 远程采集 174 14.1 为什么要用远程服务器 174 14.1.1 避免IP 地址被封杀 174 14.1.2 移植性与扩展性 175 14.2 Tor 代理服务器 176 14.3 远程主机 177 14.3.1 从网站主机运行 178 14.3.2 从云主机运行 178 14.4 其他资源 179 14.5 勇往直前 180 附录A Python 简介 181 附录B 互联网简介 184 附录C 网络数据采集的法律与道德约束 188 作者简介 200

2018-03-17

中国区块链技术和应用发展白皮书(2016)

中国区块链技术和应用发展白皮书(2016)

2018-03-07

腾讯传(高清含书签)

讲述腾讯从1998-2016的发展历程。同时也讲述中国互联网行业的发展。

2018-01-31

利用Python进行数据分析 pdf

利用Python进行数据分析 pdf 利用Python进行数据分析 pdf 利用Python进行数据分析 pdf

2018-01-19

数字图像处理与机器视觉——Visual C++与Matlab实现.zip

数字图像处理与机器视觉——Visual C++与Matlab实现 分章节

2018-01-19

简历自荐书模板

很好的简历模板,简约大方,希望帮助到找工作的同学。

2018-01-19

推荐系统实践.

推荐系统实践.推荐系统实践.推荐系统实践.

2018-01-16

《Java核心技术 卷1 基础知识(原书第9版)》(完整中文版)

《Java核心技术 卷1 基础知识(原书第9版)》(完整中文版)

2018-01-16

图片验证码9000多张

图片验证码9000多张 图片验证码9000多张 图片验证码9000多张

2018-01-16

phantomjs-2.1.1-windows

phantomjs-2.1.1-windows phantomjs-2.1.1-windows phantomjs-2.1.1-windows

2018-01-16

chromedriver.exe

chromedriver.exe chromedriver.exe chromedriver.exe chromedriver.exe

2018-01-16

docker 从入门到实践

docker 从入门到实践 docker 从入门到实践 docker 从入门到实践

2018-01-16

网络是怎么连接的—pdf 高清含书签

计算机网络基础 计算机网络基础 计算机网络基础 计算机网络基础

2018-01-16

Java面试宝典

Java面试宝典pdf Java面试宝典pdf Java面试宝典pdf Java面试宝典pdf Java面试宝典pdf Java面试宝典pdf Java面试宝典pdf Java面试宝典pdf Java面试宝典pdf Java面试宝典pdf 含书签

2018-01-16

司守奎《数学建模算法与应用》随书光盘

司守奎《数学建模算法与应用》随书光盘

2016-11-26

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除